Please wait a minute...
Advanced Search
数据分析与知识发现  2023, Vol. 7 Issue (1): 102-112
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
1中国科学院计算机网络信息中心 北京 100083
2中国科学院大学 北京 100049
Identifying Interdisciplinary Sci-Tech Literature Based on Multi-Label Classification
Wang Weijun1,2,Ning Zhiyuan1,2,Du Yi1,2(),Zhou Yuanchun1,2
1Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China
2University of Chinese Academy of Sciences, Beijing 100049, China
全文: PDF (1289 KB)   HTML ( 19
输出: BibTeX | EndNote (RIS)      

【目的】 识别科技文献的学科交叉研究性质,为挖掘学科交叉前沿问题提供支撑。【方法】 将学科领域专家提供的科技文献已有学科标签,与文本分类算法预测的科技文献学科标签相结合,共同识别学科交叉科技文献。【结果】 相较于直接基于模型预测,本文提出的识别学科交叉科技文献的方法F1指标从0.23提升到0.45。【局限】 模型识别学科交叉研究性质科技文献的召回率指标较低。【结论】 通过关注不同学科间科技文献被分类错误的数据,判断科技文献的学科交叉研究性质,是值得进一步关注的研究方向。

E-mail Alert
关键词 深度学习多标签文本分类学科交叉研究识别科技文献    

[Objective] This paper tries to identify interdisciplinary sci-tech literature, aiming to find emerging interdisciplinary issues. [Methods] We combined the discipline labels of sci-tech literature provided by specialists with labels predicted by text classification algorithms to find interdisciplinary studies. [Results] The F1 value of the proposed method reached 0.45, which was 0.22 higher than those of the model-based predictions. [Limitations] The model had low recall values for identifying the interdisciplinary sci-tech research. [Conclusions] The paper effectively addresses the classification issues of interdisciplinary sci-tech literature, which merits more studies in the future.

Key wordsDeep Learning    Multi-Label Text Classification    Interdisciplinary Research Recognition    Sci-Tech Literature
收稿日期: 2022-04-18      出版日期: 2023-02-16
ZTFLH:  TP393 G250  
通讯作者: 杜一,ORCID:0000-0003-3121-8937,。   
王卫军, 宁致远, 杜一, 周园春. 基于多标签分类的科技文献学科交叉研究性质识别*[J]. 数据分析与知识发现, 2023, 7(1): 102-112.
Wang Weijun, Ning Zhiyuan, Du Yi, Zhou Yuanchun. Identifying Interdisciplinary Sci-Tech Literature Based on Multi-Label Classification. Data Analysis and Knowledge Discovery, 2023, 7(1): 102-112.
链接本文:      或
Fig.1  树状层次结构的学科分类体系
Fig.2  文本分类流程[18]
Fig.3  科技文献学科交叉研究识别模型
Encoder模型 Micro-F1 Macro-F1
FastText 0.781 8 0.535 1
TextCNN 0.778 2 0.524 6
TextRNN 0.714 7 0.300 4
TextRCNN 0.780 2 0.587 9
TextDPCNN 0.769 0 0.590 5
TextCRNN 0.757 3 0.485 8
HAN 0.738 9 0.487 5
BERT 0.791 8 0.597 6
Table 1  不同模型性能对比
Fig.4  标注为不同学科分支的项目分布(2011-2018)
Fig.5  标注为不同学科分支的项目分布(2019)
参数 参数设置
Encoder模型 BERT
Transformer层数 4
batchsize 64
学习率 5e-5
epochs 100
早停参数 20
预训练模型 chinese_L-12_H-768_A-12
标签判断阈值 0.5
Table 2  分类模型参数设置
数据集 Macro-F1 Micro-F1
关键词 0.564 4 0.788 3
关键词+题目 0.582 3 0.786 7
关键词+题目+摘要 0.597 6 0.791 8
Table3  不同数据集上的分类性能对比
方法 分类类别 准确率 召回率 F1
S1 0(431条) 0.90 1 0.95
S1 1( 55条) 1 0.13 0.23
S2 0(431条) 0.92 0.99 0.95
S2 1( 55条) 0.85 0.31 0.45
Table 4  学科交叉研究识别方法的效果对比
序号 题目 关键词 实际学科 预测学科 人工标注
0 社交网络互动中用户“信息窄化”机理分析:基于微博的数据挖掘 网络信息内容; 信息沟; 社交媒体挖掘; 信息窄化; 微博舆情 G0414; G04; G F06; G0414; G04; F 交叉研究
1 面向攻击语境的社交网络危害信息检测方法及其验证与测试研究 验证与测试; 对抗攻击; 危害信息检测; 社交网络信息传播; 人工智能安全 F06; F0608; F F06; G01; F 交叉研究
2 基于多模态深度学习的金融跨市场耦合关系建模及应用研究 危机预警; 数量——文本双模态信息; 金融跨市场耦合关系; 深度学习 G01; G0114; G F06; G01; G0114; G; F 交叉研究
3 面向边计算服务质量优化的博弈论方法研究 nash均衡; pareto最优; 行为模型; 决策论; 移动边计算 F06; F; F0601 F06; G01; G0114; G 交叉研究
Table 5  识别为学科交叉研究的项目
序号 题目 关键词 实际学科 预测学科 人工标注
0 人工智能环境下层次化复杂问题决策方法研究 人工智能; 决策方法; 层次化复杂问题; 认知表达; 体系建模 F06; F; F0601 G01; G0114; G 学科交叉
1 云平台中多云用户联合博弈服务机制与策略探索 定价机制; 决策论; 机制设计; nash均衡 F06; F; F0601 G01; G0114; G 学科交叉
2 基于非确定性概率型信息的智能安全决策系统研究 智能决策系统; 不确定性知识表示; 安全博弈; 不确定性推理; 不确定性下的决策 F06; F; F0601 G01; G0114; G 学科交叉
3 基于标签语义挖掘的城市画像计算与应用模型研究 知识发现; 语义挖掘; 社会化标签; 城市画像; 信息融合 G0414; G04; G F0607; F06; F 学科交叉
Table 6  识别为其他学科的项目
[1] Klein J T. A Conceptual Vocabulary of Interdisciplinary Science[A]//StehrN, WeingartP. Practising Interdisciplinarity[M]. Toronto: University of Toronto Press, 2000: 3-24.
[2] Easton D. The Division, Integration, and Transfer of Knowledge[J]. Bulletin of the American Academy of Arts and Sciences, 1991, 44(4): 8-27.
doi: 10.2307/3824130
[3] 许海云, 董坤, 隗玲. 学科交叉主题识别与预测方法研究[M]. 北京: 科学技术文献出版社, 2019.
[3] ( Xu Haiyun, Dong Kun, Wei Ling. Research on Interdisciplinary Topics Identification and Prediction Methods[M]. Beijing: Scientific and Technical Documents Publishing House, 2019.)
[4] 魏建香. 学科交叉知识发现及其可视化研究[D]. 南京: 南京大学, 2010.
[4] ( Wei Jianxiang. Interdiscipline Knowledge Discovery and Its Visualization Research[D]. Nanjing: Nanjing University, 2010.)
[5] Dong K, Xu H Y, Luo R, et al. An Integrated Method for Interdisciplinary Topic Identification and Prediction: A Case Study on Information Science and Library Science[J]. Scientometrics, 2018, 115(2): 849-868.
doi: 10.1007/s11192-018-2694-x
[6] Ba Z C, Cao Y J, Mao J, et al. A Hierarchical Approach to Analyzing Knowledge Integration Between Two Fields—A Case Study on Medical Informatics and Computer Science[J]. Scientometrics, 2019, 119(3): 1455-1486.
doi: 10.1007/s11192-019-03103-1
[7] 阮光册, 夏磊. 学科间交叉研究主题识别——以图书情报学与教育学为例[J]. 情报科学, 2020, 38(12): 152-157.
[7] ( Ruan Guangce, Xia Lei. Research on Interdisciplinary Topics Identification—A Case Study of Library & Information Science and Education[J]. Information Science, 2020, 38(12): 152-157.)
[8] Deshmukh P R, Borhade B. Support Vector Machine Classifier for Research Discipline Area Selection[C]// Proceedings of the 2017 International Conference on Intelligent Computing and Control Systems. IEEE, 2017: 462-466.
[9] 王昊, 叶鹏, 邓三鸿. 机器学习在中文期刊论文自动分类研究中的应用[J]. 现代图书情报技术, 2014(3): 80-87.
[9] ( Wang Hao, Ye Peng, Deng Sanhong. The Application of Machine-Learning in the Research on Automatic Categorization of Chinese Periodical Articles[J]. New Technology of Library and Information Service, 2014(3): 80-87.)
[10] 刘晓东, 倪浩然. 深度学习技术在学科融合研究中的应用[J]. 数据与计算发展前沿, 2020(5): 99-109.
[10] ( Liu Xiaodong, Ni Haoran. Application of Deep Learning Technology in Discipline Integration Research[J]. Frontiers of Data & Computing, 2020(5): 99-109.)
[11] Xiao M, Qiao Z Y, Fu Y J, et al. Expert Knowledge-Guided Length-Variant Hierarchical Label Generation for Proposal Classification[C]// Proceedings of the 2021 IEEE International Conference on Data Mining. IEEE, 2021: 757-766.
[12] Kowsari K, Brown D E, Heidarysafa M, et al. HDLTex: Hierarchical Deep Learning for Text Classification[C]// Proceedings of the 16th IEEE International Conference on Machine Learning and Applications. IEEE, 2017: 364-371.
[13] Haghighian Roudsari A, Afshar J, Lee W, et al. PatentNet: Multi-Label Classification of Patent Documents Using Deep Learning Based Language Understanding[J]. Scientometrics, 2022, 127(1): 207-231.
doi: 10.1007/s11192-021-04179-4
[14] Xiao M, Qiao Z, Fu Y, et al. Who Should Review Your Proposal? Interdisciplinary Topic Path Detection for Research Proposals[OL]. arXiv Preprint, arXiv: 2203.10922.
[15] 黄学坚, 刘雨飏, 马廷淮. 基于改进型图神经网络的学术论文分类模型[J]. 数据分析与知识发现, 2022, 6(10): 93-102.
[15] ( Huang Xuejian, Liu Yuyang, Ma Tinghuai. Classification Model for Scholarly Articles Based on Improved Graph Neural Network[J]. Data Analysis and Knowledge Discovery, 2022, 6(10): 93-102.)
[16] 刘浏, 王东波. 基于论文自动分类的社科类学科跨学科性研究[J]. 数据分析与知识发现, 2018, 2(3): 30-38.
[16] ( Wang Dongbo. Identifying Interdisciplinary Social Science Research Based on Article Classification[J]. Data Analysis and Knowledge Discovery, 2018, 2(3): 30-38.)
[17] Lyutov A, Uygun Y, Hütt M T. Machine Learning Misclassification of Academic Publications Reveals Non-Trivial Interdependencies of Scientific Disciplines[J]. Scientometrics, 2021, 126(2): 1173-1186.
doi: 10.1007/s11192-020-03789-8
[18] Li Q, Peng H, Li J, et al. A Survey on Text Classification: From Shallow to Deep Learning[OL]. arXiv Preprint, arXiv: 2008.00364.
[19] Yegros-Yegros A, Rafols I, D'Este P. Does Interdisciplinary Research Lead to Higher Citation Impact? The Different Effect of Proximal and Distal Interdisciplinarity[J]. PLoS One, 2015, 10(8): e0135095.
doi: 10.1371/journal.pone.0135095
[20] Joulin A, Grave E, Bojanowski P, et al. Bag of Tricks for Efficient Text Classification[C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. 2017: 427-431.
[21] Kim Y. Convolutional Neural Networks for Sentence Classification[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. 2014: 1746-1751.
[22] Liu P, Qiu X, Huang X. Recurrent Neural Network for Text Classification with Multi-Task Learning[C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence. 2016.
[23] Lai S, Xu L, Liu K, et al. Recurrent Convolutional Neural Networks for Text Classification[C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. 2015.
[24] Johnson R, Zhang T. Deep Pyramid Convolutional Neural Networks for Text Categorization[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. 2017: 562-570.
[25] Zhou C, Sun C, Liu Z, et al. A C-LSTM Neural Network for Text Classification[OL]. arXiv Preprint, arXiv: 1511.08630.
[26] Yang Z, Yang D, Dyer C, et al. Hierarchical Attention Networks for Document Classification[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. 2016.
[27] Devlin J, Chang M W, Lee K, et al. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding[OL]. arXiv Preprint, arXiv: 1810.04805.
[28] Vaswani A, Shazeer N, Parmar N, et al. Attention is All You Need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017.
[1] 肖宇晗, 林慧苹. 基于CWSA方面词提取模型的差异化需求挖掘方法研究——以京东手机评论为例*[J]. 数据分析与知识发现, 2023, 7(1): 63-75.
[2] 成全, 佘德昕. 融合患者体征与用药数据的图神经网络药物推荐方法研究*[J]. 数据分析与知识发现, 2022, 6(9): 113-124.
[3] 王露, 乐小虬. 科技论文引用内容分析研究进展[J]. 数据分析与知识发现, 2022, 6(4): 1-15.
[4] 郑潇, 李树青, 张志旺. 基于评分数值分析的用户项目质量测度及其在深度推荐模型中的应用*[J]. 数据分析与知识发现, 2022, 6(4): 39-48.
[5] 余传明, 林虹君, 张贞港. 基于多任务深度学习的实体和事件联合抽取模型*[J]. 数据分析与知识发现, 2022, 6(2/3): 117-128.
[6] 吕璐成, 周健, 王学昭, 刘细文. 基于双层主题模型的技术演化分析框架及其应用*[J]. 数据分析与知识发现, 2022, 6(2/3): 18-32.
[7] 张云秋, 李博诚, 陈妍. 面向不平衡数据的电子病历自动分类研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 233-241.
[8] 张芳丛, 秦秋莉, 姜勇, 庄润涛. 基于RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别研究[J]. 数据分析与知识发现, 2022, 6(2/3): 251-262.
[9] 胡雅敏, 吴晓燕, 陈方. 基于机器学习的技术术语识别研究综述[J]. 数据分析与知识发现, 2022, 6(2/3): 7-17.
[10] 刘洋, 马莉莉, 张雯, 胡忠义, 吴江. 基于跨模态深度学习的旅游评论反讽识别*[J]. 数据分析与知识发现, 2022, 6(12): 23-31.
[11] 曹丽娜,张健,陈进东,樊辉. 基于深度学习的中小微企业综合质量画像构建研究*[J]. 数据分析与知识发现, 2022, 6(11): 126-138.
[12] 李治, 孙锐, 姚羽轩, 李小欢. 基于实时事件侦测的兴趣点推荐系统研究*[J]. 数据分析与知识发现, 2022, 6(10): 114-127.
[13] 黄学坚, 刘雨飏, 马廷淮. 基于改进型图神经网络的学术论文分类模型*[J]. 数据分析与知识发现, 2022, 6(10): 93-102.
[14] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[15] 柴庆凤, 史霖炎, 梅珊, 熊海涛, 贺惠新. 基于人工特征和机器特征融合的科技文献知识元抽取*[J]. 数据分析与知识发现, 2021, 5(8): 132-144.
Full text



版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190