Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (3): 22-29     https://doi.org/10.11925/infotech.2096-3467.2017.1012
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
学术成果主题新颖性测度方法研究*——基于Doc2Vec和HMM算法
逯万辉1,2,3, 谭宗颖1,2()
1(中国科学院文献情报中心 北京 100190)
2(中国科学院大学 北京 100049)
3(中国社会科学院中国社会科学评价研究院 北京 100732)
Measuring Novelty of Scholarly Articles
Lu Wanhui1,2,3, Tan Zongying1,2()
1(National Science Library, Chinese Academy of Sciences, Beijing 100190, China)
2(University of Chinese Academy of Sciences, Beijing 100049, China)
3(Chinese Academy of Social Science Evaluation Studies, Chinese Academy of Social Sciences, Beijing 100732, China)
全文: PDF (952 KB)   HTML ( 3
输出: BibTeX | EndNote (RIS)      
摘要 

目的】进一步研究和构建学术成果主题新颖性测度指标, 量化地测度学术成果的主题新颖性。【方法】构建基于Doc2Vec和HMM的文本内容特征因子计算模型, 通过该内容特征因子构造文档的主题新颖性测度指标函数。基于《情报学报》、《情报科学》和《情报杂志》三本期刊2014年度所刊载的学术论文进行实证研究, 测度论文的主题新颖性。【结果】将该方法与已有的新颖性测度方法的计算结果进行对比, 其结果表现为0.01水平上的显著相关关系, 相关系数为0.494, 同时该方法也避免了已有方法的计算结果中存在的区分度不够的问题。【局限】仅使用摘要文本进行挖掘, 未对全文信息进行深入挖掘。【结论】基于该方法的学术成果主题新颖性测度方法和计算结果具有可操作性和可解释性, 可以为学术评价和学科前沿探测提供有效支撑。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
逯万辉
谭宗颖
关键词 主题新颖度内容特征因子学术成果    
Abstract

[Objective] This paper aims to construct a novelty index to evaluate the academic achievements. [Methods] First, we proposed a model to calculate content eigenfactor based on deep learning (Doc2Vec) and Hidden Markov Model. Then, we built the topic novelty measure index. Finally, we examined the proposed method with academic papers published by three Chinese LIS journals in 2014. [Results] Compared with the existing methods, the proposed model measured the topic novelty more effectively. [Limitations] Our empirical research only examined abstracts of the academic papers. [Conclusions] The proposed method could help us evaluate and monitor scholarly research.

Key wordsNovelty of Topics    Content Eigenfactor    Academic Achievements
收稿日期: 2017-10-09      出版日期: 2018-04-03
ZTFLH:  G250  
基金资助:*本文系国家自然科学基金委课题“力学学科发展态势评估研究: 2006-2015”和国家社会科学基金重大项目“社科研究领域哲学社会科学成果评价体系和奖励制度研究”(项目编号: 2016MZD003)的研究成果之一
引用本文:   
逯万辉, 谭宗颖. 学术成果主题新颖性测度方法研究*——基于Doc2Vec和HMM算法[J]. 数据分析与知识发现, 2018, 2(3): 22-29.
Lu Wanhui,Tan Zongying. Measuring Novelty of Scholarly Articles. Data Analysis and Knowledge Discovery, 2018, 2(3): 22-29.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.1012      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I3/22
  基于深度学习与隐马尔可夫模型的主题新颖性指数计算模型
  论文主题新颖性计算结果及其分布情况
ID 文章题目 文章来源 主题新颖度 文献[18](α=0.5)
1 我国综合性文献数据库大学生用户心智模型结构测量实证研究 情报学报 0.4848 1
2 生态产业集群内知识转移影响因素的分析 情报科学 0.4836 0.6065
3 论中国公安情报学学科专业发展及研究框架 情报杂志 0.4812 0.3019
4 国内外网络舆情数学建模研究综述 情报杂志 0.4801 0.6065
5 数字鸿沟分析视角下的电子政务在线服务测评——基于北京市的实证研究 情报科学 0.4779 0.6065
6 知识网络的知识完备性测度方法研究 情报学报 0.4775 0.3679
7 欧美国家公共信息资源定价策略的发展演变分析 情报学报 0.4755 0.1353
8 基于仿生学视角的科技型新创企业知识转化影响因素研究 情报科学 0.4748 0.6065
9 应用“h2指数”评价高校档案馆学术能力的效果研究——以我国高校排名
前20名的高校档案馆为例
情报科学 0.4741 0.6065
10 复杂项目危机预警网格系统设计与实现 情报杂志 0.4723 0.4978
  基于Doc2Vec的主题新颖度计算结果
[1] 张京辉, 胡淑礼, 王亚非, 等. 软科学成果查新研究[J]. 软科学, 1993, 7(4): 28-33.
[1] (Zhang Jinghui, Hu Shuli, Wang Yafei, et al.Research on the Novelty Search of Soft Science[J]. Soft Science, 1993, 7(4): 28-33.)
[2] 《科技查新教程》编写组. 科技查新教程[M]. 北京: 机械工业出版社, 2001: 325.
[2] (Writing Group of Sci-Tech Novelty Retrieval Tutorial. Sci-Tech Novelty Retrieval Tutorial [M]. Beijing: China Machine Press, 2001: 325.)
[3] Spier R.The History of the Peer-Review Process[J]. Trends in Biotechnology, 2002, 20(8): 357-358.
doi: 10.1016/S0167-7799(02)01985-6 pmid: 12127284
[4] 杨京. 基于研究水平的单篇学术论文创新力评价研究[D]. 淄博: 山东理工大学, 2016.
[4] (Yang Jing.Evaluation of Paper’s Innovation Based on the Research Level [D]. Zibo: Shandong University of Technology, 2016.)
[5] 杨锋, 梁樑, 苟清龙, 等. 同行评议制度缺陷的根源及完善机制[J]. 科学学研究, 2008, 26(3): 569-572.
[5] (Yang Feng, Liang Liang, Gou Qinglong, et al.Origination and Improvement for the Pitfalls of Peer Review Systems[J]. Studies in Science of Science, 2008, 26(3): 569-572.)
[6] 沈律. 科技创新的一般均衡理论——关于科技成果创新度评价的科学计量学分析[J]. 科学学研究, 2003, 21(2): 205-209.
[6] (Shen Lv.A General Equilibrium Theory of the Science & Technology Innovation: On Scientometrics Analysis of the Science & Technology Innovation[J]. Studies in Science of Science, 2003, 21(2): 205-209.)
[7] 朱大明. 参考文献的主要作用与学术论文的创新性评审[J]. 编辑学报, 2004, 16(2): 91-92.
doi: 10.3969/j.issn.1001-4314.2004.02.006
[7] (Zhu Daming.Main Roles of References and Appraisal of Innovation of Academic Papers[J]. Acta Editologica, 2004, 16(2): 91-92.)
doi: 10.3969/j.issn.1001-4314.2004.02.006
[8] 祁延莉, 窦曦骞, 夏汇川. SCI量化评价功能的局限性及其修正[J]. 情报理论与实践, 2009, 32(9): 48-52.
[8] (Qi Yanli, Dou Xiqian, Xia Huichuan.Limitations of SCI Quantitative Evaluation Function & Its Modifications[J]. Information Studies: Theory & Application, 2009, 32(9): 48-52.
[9] Seglen P O.Why the Impact Factor of Journals Should Not Be Used for Evaluating Research[J]. BMJ, 1997, 314(7079): 498-502.
doi: 10.1136/bmj.314.7079.498 pmid: 9056805
[10] Leydesdorff L, Bornmann L, Comins J, et al. Citations: Indicators of Quality? The Impact Fallacy[J]. Frontiers in Research Metrics and Analysis, 2016, 1: Article 1.
[11] 尚海茹, 冯长根, 孙良. 用学术影响力评价学术论文——兼论关于学术传承效应和长期引用的两个新指标[J]. 科学通报, 2016, 61(26): 2853-2860.
[11] (Shang Hairu, Feng Changgen, Sun Liang.Evaluation of Academic Papers with Academic Influence — Proposing Two New Indicators of Academic Inheritance Effect and Long-term Citation[J]. Chinese Science Bulletin, 2016, 61(26): 2853-2860.)
[12] 吴勤. 基于引证强度的学术论文质量评价方法研究[J]. 情报学报, 2007, 26(4): 522-526.
doi: 10.3969/j.issn.1000-0135.2007.04.007
[12] (Wu Qin.Research on Quality Evaluation in the Academic Articles Based on the Intensity of Citation[J]. Journal of the China Society for Scientific and Technical Information, 2007, 26(4): 522-526.)
doi: 10.3969/j.issn.1000-0135.2007.04.007
[13] Hirsch J E.An Index to Quantify an Individual’s Scientific Research Output[J]. Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(46): 16569-16572.
doi: 10.1073/pnas.0507655102 pmid: 16275915
[14] 沈阳. 一种基于关键词的创新度评价方法[J]. 情报理论与实践, 2007, 30(1): 125-127.
[14] (Shen Yang.An Innovative Evaluation Method Based on Keywords[J]. Information Studies: Theory & Application, 2007, 30(1): 125-127.)
[15] 钱玲飞, 杨建林, 张莉. 基于关键词分析的学科创新力比较——以情报学图书馆学为例[J]. 情报理论与实践, 2011, 34(1): 117-120.
[15] (Qian Lingfei, Yang Jianlin, Zhang Li.Comparison of the Discipline Innovation Based on Keyword Analysis — Take the Information Science and Library Sciences as an Example[J]. Information Studies: Theory & Application, 2011, 34(1): 117-120.)
[16] 杨建林, 钱玲飞. 基于关键词对逆文档频率的主题新颖度度量方法[J]. 情报理论与实践, 2013, 36(3): 99-102.
[16] (Yang Jianlin, Qian Lingfei.A Novel Measurement Method of the Theme Based on Inverse Document Frequency of Keywords[J]. Information Studies: Theory & Application, 2013, 36(3): 99-102.)
[17] Mase H, Matsubayashi T, Ogawa Y, et al.Proposal of Two-stage Patent Retrieval Method Considering the Claim Structure[J]. ACM Transactions on Asian Language Information Processing, 2005, 4(2): 190-206.
doi: 10.1145/1105696.1105702
[18] 刘玉琴, 朱东华, 吕琳. 基于文本挖掘技术的产品技术成熟度预测[J]. 计算机集成制造系统, 2008, 14(3): 506-510.
doi: 10.1016/j.commatsci.2008.03.016
[18] (Liu Yuqin, Zhu Donghua, Lv Lin.Technology Maturity of Product Forecasting Based on Text Mining[J]. Computer Integrated Manufacturing Systems, 2008, 14(3): 506-510.)
doi: 10.1016/j.commatsci.2008.03.016
[19] Meng L, Huang R, Gu J.A Review of Semantic Similarity Measures in WordNet[J]. International Journal of Hybrid Information Technology, 2013, 6(1): 1-12.
[20] 孙润志. 基于语义理解的文本相似度计算研究与实现[D]. 北京: 中国科学院大学, 2015.
[20] (Sun Runzhi.Research and Implementation of Text Similarity Computing Based on Semantic Understanding[D]. Beijing: University of Chinese Academy of Sciences, 2015.)
[21] Word2Vec [EB/OL]. [2017-12-05]..
[22] Le Q V, Mikolov T.Distributed Representations of Sentences and Documents [OL]. arXiv Preprint, arXiv: 1405.405302.
[23] Lee S, Jin X, Kim W.Sentiment Classification for Unlabeled Dataset Using Doc2Vec with JST[C]// Proceedings of the 18th Annual International Conference on Electronic Commerce: E-Commerce in Smart Connected World. ACM, 2016: 28.
[24] Maslova N, Potapov V.Neural Network Doc2vec in Automated Sentiment Analysis for Short Informal Texts[A]// Lecture Notes in Computer Science[M]. Springer, 2017: 546-554.
[25] 逯万辉. 基于深度学习的学术期刊选题同质化测度方法研究[J]. 情报资料工作, 2017, 38(5): 105-112.
doi: 10.3969/j.issn.1002-0314.2017.05.016
[25] (Lu Wanhui.Research on Measuring Academic Journals Topics Homogenization Based on Deep Learning[J]. Information and Documentation Services, 2017, 38(5): 105-112.)
doi: 10.3969/j.issn.1002-0314.2017.05.016
[26] Sheldon D.Manipulation of Pagerank and Collective Hidden Markov Models[D]. Cornell University, 2010.
[27] 荆林波. 中国人文社会科学期刊评价报告[M]. 北京: 中国社会科学出版社, 2015.
[27] (Jing Linbo.Evaluation Report of Chinese Humanities and Social Sciences Journals [M]. Beijing: China Social Sciences Press, 2015.)
[1] 王思丽, 祝忠明, 杨恒, 刘巍. 基于模式和投影学习的领域概念上下位关系自动识别研究 [J]. 数据分析与知识发现, 0, (): 1-.
[2] 秦成磊, 章成志. 基于层次注意力网络模型的学术文本结构功能识别 [J]. 数据分析与知识发现, 0, (): 1-.
[3] 徐以聪,田学东,李新福,杨芳,史青宣. 基于犹豫模糊权重的数学表达式检索 *[J]. 数据分析与知识发现, 2020, 4(7): 118-126.
[4] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[5] 刘伟江,魏海,运天鹤. 基于卷积神经网络的客户信用评估模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 80-90.
[6] 刘倩, 李晨亮. 基于社交媒体的话题演变研究综述 [J]. 数据分析与知识发现, 0, (): 1-.
[7] 沈喆, 王毅, 姚毅凡, 成颖. 面向学术文献的作者名消歧方法研究综述 [J]. 数据分析与知识发现, 0, (): 1-.
[8] 梁野, 李小元, 许航, 胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构 [J]. 数据分析与知识发现, 0, (): 1-.
[9] 徐浩,朱学芳,章成志,江川. 面向学术文献全文本的方法论知识抽取系统分析与设计 *[J]. 数据分析与知识发现, 2019, 3(10): 29-36.
[10] 李东, 童寿传, 李江. 学科交叉与科学家学术影响力之间的关系研究*[J]. 数据分析与知识发现, 2018, 2(12): 1-11.
[11] 俞琰, 赵乃瑄. 基于辅助集的专利主题分析领域停用词 选取*[J]. 数据分析与知识发现, 2018, 2(11): 95-103.
[12] 张鹏翼, 王丹雪, 焦祎凡, 陈秀雨, 王军. 基于用户浏览日志的移动购买预测研究*[J]. 数据分析与知识发现, 2018, 2(1): 51-63.
[13] 郭少卿, 乐小虬. 科技论文中数值指标实际取值识别[J]. 数据分析与知识发现, 2018, 2(1): 21-28.
[14] 陈果, 肖璐. 网络社区中的知识元链接体系构建研究*[J]. 数据分析与知识发现, 2017, 1(11): 75-83.
[15] 李慧, 柴亚青. 基于属性特征的评论文本情感极性量化分析*[J]. 数据分析与知识发现, 2017, 1(10): 1-11.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn