Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (2/3): 143-152    DOI: 10.11925/infotech.2096-3467.2019.0630
  专辑 本期目录 | 过刊浏览 | 高级检索 |
中文术语粒度对其区分能力测度的影响分析*
熊欣1,2,王昊1,2(),张海潮1,2,张宝隆1,2
1南京大学信息管理学院 南京 210023
2江苏省数据工程与知识服务重点实验室 南京 210023
Impacts of Chinese Term Granularity on Measuring Term Discriminative Capacity
Xiong Xin1,2,Wang Hao1,2(),Zhang Haichao1,2,Zhang Baolong1,2
1School of Information Management, Nanjing University, Nanjing 210023, China
2Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China
全文: PDF(1426 KB)   HTML ( 1
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 比较中文术语粒度对不同字段的术语区分能力(Term Discriminative Capacity, TDC)测度的影响。【方法】 将术语区分能力测度应用于题名、关键词、摘要和附加关键词的术语质量评估,在对照组和实验组中使用方差分析对不同学科、字段及术语粒度的TDC进行差异检测。【结果】 当关键词和附加关键词未经处理时,在TDC上的表现为:题名>摘要>附加关键词>关键词;当术语粒度为词时,附加关键词的表现提升,题名>附加关键词>摘要>关键词。【局限】 实验数据仅包含5个人文社会科学学科,样本代表性可能存在不足。【结论】 中文术语粒度和字段在术语区分能力测度上相互作用,各字段的术语粒度统一为词可降低字段因素的影响。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
熊欣
王昊
张海潮
张宝隆
关键词 术语区分能力术语粒度学术资源检索系统自动标引    
Abstract

[Objective] This paper explores the granularity of Chinese terms from different fields, and then measures the Term Discriminative Capacity (TDC).[Methods] First, we used TDC to evaluate the quality of terms from four indexes. Then, we detected the differences in TDC among disciplines, fields and term granularity.[Results] In control group, the order of mean TDC was Title > Abstract > Keywords Plus > Keywords. In experimental group, the performance of Keywords Plus was improved, thus Title > Keywords Plus > Abstract > Keywords.[Limitations] We only collected data from five disciplines in Humanities and Social sciences.[Conclusions] Both Chinese term granularity and source fields influence the Term Discriminative Capacity. We should standarize term granularity to reduce the impact of fields.

Key wordsTerm Discriminative Capacity    Term Granularity    Academic Literature Retrieval System    Automatic Indexing
收稿日期: 2019-06-10     
中图分类号:  TP391  
基金资助:*本文系国家自然科学基金青年项目“面向学术资源的TSD与TDC测度及分析研究”(71503121);南京大学人文社会科学双一流建设“百层次”项目“多粒度学术对象区分性测度和分析研究”和“江苏青年社科英才”;“南京大学仲英青年学者(Tang Scholar)”人才培养计划资助的研究成果之一
通讯作者: 王昊     E-mail: ywhaowang@nju.edu.cn
引用本文:   
熊欣,王昊,张海潮,张宝隆. 中文术语粒度对其区分能力测度的影响分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 143-152.
Xiong Xin,Wang Hao,Zhang Haichao,Zhang Baolong. Impacts of Chinese Term Granularity on Measuring Term Discriminative Capacity. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2019.0630.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0630
图1  研究框架
序号 学科 学科简称 文献
检索数
有效
记录数
有效
百分比
学科类型
1 哲学 PHI 8 160 3 861 47.32% 人文
2 历史学 HIS 7 341 3 624 49.37% 人文
3 经济学 ECO 34 255 19 149 55.90% 社科
4 社会学 SOC 4 622 2 268 49.07% 社科
5 图书馆、情报与文献学 LIS 10 285 6 440 62.62% 交叉
表1  各学科的文献与有效记录情况
字段(Field) 编号 简称
题名 1 TI
摘要 2 AB
关键词 3 KW
附加关键词 4 KP
表2  字段符号及其简称
组别

字段
TI AB KW KP All
对照组 2 772 8 997 3 294 7 986 18 891
实验组 2 772 8 997 2 693 5 188 11 173
表3  术语数量的统计情况(单位:个)
字段 TI AB KW KP All
对照组 1.94 2.05 4.11 4.37 3.31
实验组 1.94 2.05 1.95 1.95 2.06
表4  术语平均长度的统计情况(单位:字)
图2  短术语的比例统计情况
图3  字段的TDC散点图(对照组)
图4  字段的One-way ANOVA均值折线图(对照组)
图5  字段的TDC-Number散点图(实验组)
图6  字段的One-way ANOVA均值折线图(实验组)
图7  字段与术语粒度的Two-way ANOVA折线图
[1] 马利 . 社科学术论文中关键词的标引[J]. 中央民族大学学报:哲学社会科学版, 2007,34(4):133-136.
( Ma Li . The Mark of Key Words in Social Academic Articles[J]. Journal of the Central University for Nationalities: Philosophy and Social Sciences Edition, 2007,34(4):133-136.)
[2] 马张华 . 简论标引用词和检索用词的差别[J]. 大学图书馆学报, 1997, 15(4): 59,61.
( Ma Zhanghua . A Brief Discussion on the Differences Between Indexing Words and Retrieval Words[J]. Journal of Academic Libraries, 1997, 15(4): 59,61.)
[3] Garfield E . Current Contents[J]. Current Contents, 1990(32):295-299.
[4] 储荷婷 . 索引工作自动化:自动标引的主要方法[J]. 情报学报, 1993,12(3):218-229.
( Chu Heting . Automation of Indexing: On the Major Approaches to Automatic Indexing[J]. Journal of the China Society for Scientific and Technical Information, 1993,12(3):218-229.)
[5] Salton G, Yang C S, Yu C T . A Theory of Term Importance in Automatic Text Analysis[J]. Journal of the American Society for Information Science, 1975,26(1):33-44.
[6] Salton G . Automatic Text Processing: The Transformation, Analysis and Retrieval of Information by Computer[M]. Addison-Wesley, 1989.
[7] Luhn H P . A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J]. IBM Journal of Research and Development, 1957,1(4):309-317.
[8] 韩客松, 王永成 . 中文全文标引的主题词标引和主题概念标引方法[J]. 情报学报, 2001,20(2):212-216.
( Han Kesong, Wang Yongcheng . Methods of Keyword and Subject Concept Indexing to Chinese Full-text[J]. Journal of the China Society for Scientific and Technical Information, 2001,20(2):212-216.)
[9] Hulth A . Improved Automatic Keyword Extraction Given More Linguistic Knowledge [C]// Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing, Sapporo, Japan. 2003: 216-223.
[10] Ercan G, Cicekli I . Using Lexical Chains for Keyword Extraction[J]. Information Processing and Management, 2007,43(6):1705-1714.
[11] Salton G, Buckley C . Automatic Text Structuring and Retrieval-Experiments in Automatic Encyclopedia Searching [C]//Proceedings of the 14th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1991: 21-30.
[12] Matsuo Y, Ishizuka M . Keyword Extraction from a Single Document Using Word Co-occurrence Statistical Information[J]. International Journal on Artificial Intelligence Tools, 2004,13(1):157-169.
[13] Zhang K, Xu H, Tang J , et al. Keyword Extraction Using Support Vector Machine [C]// Proceedings of the 7th International Conference on Web-Age Information Management, Hong Kong, China. 2006: 85-96.
[14] Huang Z, Xu W, Yu K . Bidirectional LSTM-CRF Models for Sequence Tagging[OL]. arXiv Preprint, arXiv: 1508.01991.
[15] 苏新宁, 邹晓明 . 现代图书情报技术[J]. 现代图书情报技术, 2000(1):23-26.
( Su Xinning, Zou Xiaoming . On Automatic Indexing of Documents[J]. New Technology of Library and Information Service, 2000(1):23-26.)
[16] 章成志 . 现代图书情报技术[J]. 现代图书情报技术, 2007(11):33-39.
( Zhang Chengzhi . Review and Prospect of Automatic Indexing Research[J]. New Technology of Library and Information Service, 2007(11):33-39.)
[17] Kim W, Aronson A R, Wilbur W J . Automatic MeSH Term Assignment and Quality Assessment [C]// Proceedings of the 2001 American Medical Informatics Association Annual Symposium, Washington, DC, USA. 2001.
[18] Wacholder N, Klavans J L, Evans D K . Evaluation of Automatically Identified Index Terms for Browsing Electronic Documents [C]// Proceedings of the 6th Conference on Applied Natural Language Processing. 2000: 302-309.
[19] Salton G, Yang C S . On the Specification of Term Values in Automatic Indexing[J]. Journal of Documentation, 1973,29(4):351-372.
[20] Salton G, Wong A . On the Role of Words and Phrases in Automatic Text Analysis[J]. Computers and the Humanities, 1976,10(2):69-87.
[21] Willett P . An Algorithm for the Calculation of Exact Term Discrimination Values[J]. Information Processing and Management, 1985,21(3):225-232.
[22] Ajiferuke I, Chu C M . Quality of Indexing in Online Databases: An Alternative Measure for a Term Discriminating Index[J]. Information Processing and Management, 1988,24(5):599-601.
[23] Fisher R A . Statistical Methods for Research Workers[M]. Oliver and Boyd, 1925.
[24] 张海潮, 王昊, 唐慧慧 , 等. CRFs字角色标注方法在中文附加关键词抽取中的应用研究[J]. 情报理论与实践, 2019,42(2):169-176.
( Zhang Haichao, Wang Hao, Tang Huihui , et al. Application of CRFs Chinese Character Role Labeling Method in Chinese Keywords Plus Extraction[J]. Information Studies: Theory & Application, 2019,42(2):169-176.)
[25] NLPIR 汉语分词系统[CP/OL]. [ 2018- 11- 26]. http://www.nlpir.org/.
( NLPIR Chinese Word Segmentation System[CP/OL].[ 2018- 11- 26]. http://www.nlpir.org/
[26] 中国科学技术信息研究所. 2018版中国科技期刊引证报告[R]. 北京: 中国科学技术信息研究所, 2018.
( Institute of Scientific and Technical Information of China. The Statistical Report of Chinese Scientific and Technical Journals of 2018[R]. Beijing: Institute of Scientific and Technical Information of China, 2018.)
[1] 杨贺, 杨奕虹, 李宁. 关键词-分类号关联词表构建[J]. 现代图书情报技术, 2013, 29(7/8): 107-113.
[2] 赵衍, 陈恒. 一种提高中英文混编文本标引准确性的方法[J]. 现代图书情报技术, 2012, 28(6): 36-42.
[3] 沈静,周金治,马建国. 基于UCL的网页信息自动标引技术研究*[J]. 现代图书情报技术, 2008, 24(8): 58-62.
[4] 章成敏,许鑫,章成志. 条件随机场标引模型的性能影响因素分析[J]. 现代图书情报技术, 2008, 24(6): 34-40.
[5] 章成志. 自动标引研究的回顾与展望*[J]. 现代图书情报技术, 2007, 2(11): 33-39.
[6] 蔡代纯 . 基于统计模型的逐步求精标引策略[J]. 现代图书情报技术, 2006, 1(6): 39-42.
[7] 王兰成,王立双. 一种基于数字图书馆的文本信息标引技术的改进研究*[J]. 现代图书情报技术, 2006, 1(2): 5-9.
[8] 许剑颖. 统计分析法自动标引的改进研究[J]. 现代图书情报技术, 2004, 20(2): 92-95.
[9] 苏新宁,邹晓明 . 文献信息自动标引研究[J]. 现代图书情报技术, 2000, 16(1): 23-26.
[10] 吴家云. 新闻数据库自动标引与自由标引的比较实验[J]. 现代图书情报技术, 1999, 15(4): 15-17.
[11] 冯项云. LSI潜在语义标引方法在情报检索中的应用[J]. 现代图书情报技术, 1998, 14(4): 19-21.
[12] 刘滨,王源,秦聿昌,吴蔚,王华霞. 微机辅助文献标引系统的设计与研究 3. 自动标引研究[J]. 现代图书情报技术, 1997, 13(5): 42-46.
[13] 王淼. 单汉字标引技术的改进研究[J]. 现代图书情报技术, 1997, 13(2): 48-53.
[14] 朱爱群. 自动标引和自动文摘对机器翻译的影响[J]. 现代图书情报技术, 1997, 13(1): 47-50.
[15] 方懿. 两种自动标引法的比较及改造[J]. 现代图书情报技术, 1996, 12(2): 20-26.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn