【目的】对挪威模型进行系统而全面的介绍, 为中国相关评价工作的开展提供参考。【方法】通过案例研究, 介绍挪威模型的实施方式、除挪威以外其他国家使用该模型的效果和经验、挪威模型在多层面多学科领域的应用效果、挪威模型与其他两种文献计量指标的比较。【结果】挪威模型作为一个与其他国家不同的基于绩效的资助系统, 在包括挪威在内的6个欧洲国家得到不同程度的应用, 在不同程度上促进了科研人员的成果产出。【局限】挪威模型的应用及模型本身都在不断地发展, 同时也受限于能够获取到的资料, 暂时无法论述挪威模型的未来发展。【结论】挪威模型在科技评价上具有一定价值, 其思想值得借鉴, 但具体如何应用于中国尚需进一步的探讨。
[Objective] This paper provides a comprehensive introduction to the Norwegian Model, aiming to promote the development of science and technology evaluation in China. [Methods] With case studies, this paper first discussed the implementation of the Norwegian Model, and the successful stories from regions outside of Norway. Then we explored the application of the Norwegian Model at various levels and subjects. Finally, we compared the Norwegian Model with two classic bibliometric measures. [Results] Six European countries used the Norwegian Model, a performance-based research funding system (PRFS), to promote their scientific publications. [Limitations] The Norwegian Model and its applications have been evolving, therefore, we are not able to discuss their future trends. [Conclusions] The Norwegian Model has some value in science and technology evaluation. More research is needed to explore its applications in China.
科技评价日益成为科技政策的工具, 受到各国政府科技管理部门和学术界的重视。科技评价是科学技术领域工作的重要一环, 对于推动科学技术共同体生态和科技事业的良性发展有较为重要的作用, 良好的科技评价体系和方法能够起到较为重要的作用。近年来, 中国不断进行科技体制和机制的改革, 此时借鉴其他国家好的经验有助于推动改革的进行。
挪威于2002年为其高等教育部门引入一个基于成果表现的资助系统, 该系统仅影响到一小部分资助经费的分配, 其主要权重都分配给基于博士学位人数、外部资金数量和终身研究人员数量等这些与教育活动(Educational Activity)相关的指标。然而, 不论是作为资助方的挪威教育与研究部还是被资助机构对该系统都不满意, 需要一种能更直接反映研究活力和研究质量的指标, 于是, 受挪威教育与研究部委托, 挪威高等教育机构协会(Norwegian Association of Higher Education Institutions, UHR)于2003年-2004年提出挪威模型(Norwegian Model)这一基于成果表现的研究资助系统作为政策工具[1]。
挪威模型试图在一个单一加权指标中全面涵盖所有研究领域的同行评议学术文献, 实现机构内部以及机构之间学术成果的可比性, 进而服务于机构评估和资助。2006年, 挪威教育与研究部首次基于挪威模型(以2005年的出版物计数为根据)对挪威基础研究年度经费预算的2%进行重新分配, 约为34亿欧元[2]。
目前, 已有多个欧洲国家利用或借鉴该模型开展实践应用, 并有许多相关研究在不断对模型进行改进和优化, 可见其有一定价值, 因此本文主要对挪威模型的组成及应用情况进行梳理和介绍, 探究其对于中国科技评价体系产生借鉴作用的可能性。
(1) 覆盖全领域的数据库。挪威模型试图构建一个涵盖整个国家所有领域的结构化、可验证、有效的全部学术成果记录。
(2) 领域通用的成果得分。具有权重系统的成果得分指标, 使院系/机构层面上实现跨领域比较。
(3) 基于表现的资助模型。基于成果得分, 将全国年度机构直接拨款经费中的一小部分, 基于机构的成果得分实行再分配。
挪威模型要求数据的完整性和可验证性, 然而即便是诸如Scopus或Web of Science等权威的商业数据库到目前为止也缺乏挪威模型所需的完整数据。挪威模型所需的文献数据由科研机构本身通过挪威的当前研究信息系统(Current Research Information System, CRIS)来维护和提供。Scopus或Web of Science的文献被直接导入系统, 除CRIS和大型数据库直接导入的部分, 其他文献需满足4点基本要求:
(1) 应该提出新的见解;
(2) 以学术形式发表, 允许在新的研究活动中验证和使用研究结果;
(3) 使用一种语言和一种分发方式, 使相关研究人员可以获取;
(4) 发表之前需通过独立的同行评审。
这些数据不仅被政府用于指导资助, 而且还被机构本身用于内部应用, 例如内部资金分配、年度报告和统计、制作简历等。
成果得分指标包含两个维度, 如表1所示。第一个维度是出版渠道, 将出版物类型分为期刊论文、论文集里的论文和专著等三个出版渠道; 第二个维度是成果等级, 依照各领域专家意见, 将各类成果分为不同等级, 成果得分根据出版物的这两个维度进行加权。
“一级”对应“正常水平”的出版渠道, 而“二级”则包含该领域内“最有选择性”和“有声望”的国际期刊、论文集论文和专著。对二级出版渠道还有一个数量上的限制, 即在每个领域中二级出版渠道的出版物最多只能占世界出版物总量的20%。该规则的意图在于鼓励发表高水平成果的同时保证各领域、各类型成果平衡发展, 并能依据研究成果和出版行为的动态发展而随之调整。
需要指出的是, 成果得分是针对机构层面进行设定, 而非研究人员个人层面。对于作者来自多个机构的出版物, 在2015年之前, 其计算采用分数计数法, 2015年开始, 采用平方根分数计数, 每一个机构计数为1/(n^0.5)(n为机构数目)。
在欧洲, 基于成果表现对研究机构进行资助的类型主要有两种: 基于评估的模式和基于指标的模式, 挪威模型属于后者。然而, 挪威模型并不是要替代研究评估, 事实上, 挪威模型的指标通常只影响一小部分资金分配。在挪威, 基于成果得分指标重新分配的经费不足高等教育部门总经费的2%, 一个成果得分代表约3 000欧元。
Aagaard等开展关于挪威模型在大学院系/科研机构层面应用的系统研究, 选取4个机构进行案例研究[6]。在对大学院系/科研机构负责人的调查中, 接近90%的大学院系/科研机构负责人表示与成果得分相关的资金已被纳入大学院系/科研机构层面。但是调查结果也显示, 多数情况下, 该指标在大学院系层面的经济激励作用弱于大学或研究机构层面。只有约20%的负责人表示他们获得了对应成果得分的100%或更多的资金; 几乎三分之一的人表示他们获得的这一比例在50%-99%之间; 22%的人表示他们获得的比例不到50%。案例研究表明, 一些机构采用滚动平均数(超过三年或更长时间)进行计算, 以减少出版行为的波动性和不确定性[6]。
这一案例研究表明, 基于成果得分的资金内部分配通常是存在巨大差异, 这个规律同时适用于不同组织之间和每一个组织内部之间。
对于采用挪威模型的指标作为监测工具, 多数挪威学术机构的领导人表示赞同。绝大多数大学院系/科研机构负责人基于挪威模型对科研活动和成果进行监测。对这两个群体(大学院系/科研机构负责人和所有级别的领导)而言, 这一指标监测了超过90%的研究活动。这个结果也同样得到案例研究的证实, 所有领导都强调将这个指标作为研究监测手段的重要性, 并且将其视为与其他单位进行比较的方面。目前来看, 所有的领导人都承认应该谨慎地使用该指标, 因为这些数字可能会产生误导。
通过挪威模型在大学院系/科研机构层次的应用, 发现机构之间的巨大差异同样存在于机构内部。一个重要的总体经验是, 系统设计人员和机构领导需要付出相当大的努力, 以防止这些类型的量化措施影响当地管理实践并最终以非预期的方式影响研究人员的个人行为。如果要减少不确定性, 并且将意想不到的影响降至最低, 就需要对各级指标使用方式进行明确和公开的讨论[7]。
Aagaard等为研究采用挪威模型后对研究人员个人发表行为可能带来的影响, 分析为开展挪威模型研究而收集到的综合性出版物数据发现[6], 2004年-2012年间挪威出版物数量快速增长, 然而基于引文影响的测量结果或二级出版物所占份额均在此期间仍然保持稳定。这说明引用行为的变化趋势或多或少地和出版行为保持一致, 在挪威没有发生类似澳大利亚那种由于期刊论文数量迅速增加而导致基于引文的国家影响显著下降的现象[8]。然而, 这些整体层面的发展可能掩盖了许多个人层面的发表活动。在这一段时间里, 进行发表活动的研究人员数量已经大大增加。然而, 对于那些在此时间段里一直都有积极进行出版行为的研究者来说, 挪威模型对他们的影响并不大。
Bloch等对此进行了具体的案例研究, 以挪威4所主要大学(奥斯陆大学、卑尔根大学、特罗姆瑟大学和挪威科技大学)为研究对象, 选取了一个固定的小组, 小组中的研究人员在2004年-2012年这段时间里有积极的发表行为[9]。
该研究中每位研究人员在2004年-2012年间的平均得分、人均出版物数量(全部计数)、二级出版物的份额以及每一个出版物平均作者数如图2所示, 涵盖了所有学术职位①(①“其他”职位包括无学术职位、客座研究员和研究职位未知的个体。)。2004年-2012年, 4所大学的研究人员数量增长73%, 职工总人数仅增长18%②(②数据来源: NIFU: http://www.foustatistikkbanken.no/nifu/?language=no (2014年4月6日获得), 没有2004年的统计数据, 18%的增长率是基于大学和大学附属的医院的员工。)。
图2中涉及的每个人的职位是从出版的第一年就固定的, 即不考虑后续的升职或者降职因素。在此期间, 平均成果得分总体上保持稳定, 教授职称的平均成果得分逐年下降, 而其他职位则是呈现上升趋势; 在变化幅度上, 只有博士生较大; 人均出版物数量大幅增加; 来自二级渠道的出版物所占份额在此期间从23%上升到26%。
尽管平均成果得分在此期间有所下降, 但是人均出版物数量和二级渠道出版物所占份额有所增加, 最可能的原因是成果得分的分数化计算是由合著者数量所决定[6,8]。除此以外, 还有的可能因素是出版物类型的变化, 如从书籍到期刊文章。然而, 事实上不同类型出版物的分布几乎没有发生什么变化。合著者数量增多会使得平均成果得分降低。如图2(d)所示, 在这段时间里, 每一篇出版物的合著者数量大幅度增加。在这个成果得分的分数化系统作用下, 个人的每一篇出版物获得的分数更少。正如Piro等的研究发现, 不同学科领域的出版活动和生产力都存在很大差异, “硬科学”(自然科学、技术科学和医学科学)中, 出版物数量多的同时合著者人数更多[10]。因此, 就成果得分而言, “软科学”(社会科学和人文科学)的生产力会更高。
Bloch等发现, 由于研究人员可能涉猎多个领域, 不能基于个别出版物的分类确定单个研究人员所从事的主要领域[9]。因此, 他们根据大学院系/机构的领域将研究人员划分为三大类: 社会科学与人文科学、自然科学与技术科学以及医学科学。挪威4所国立大学的活跃研究人员平均成果得分如表2所示, 社会科学和人文科学以及自然科学的成果得分都有所增加, 但是医学科学的成果得分明显下降, 原因是在出版物数量增加的同时合作者数量也大量增加, 导致每个出版物的分数较少。在这段时间里, 医学科学的平均合著者人数已经翻了一倍以上, 从5.9增加到12.5。
一般来说, 二级出版物的份额也会随着时间的推移而增加。总体上看, 教授、副教授和博士生这三个学术职位的研究人员在此期间的变化是正向(增长)且显著的, 而对于讲师和“其他”这两个职位而言, 这种变化则不太显著。
挪威模型的核心部分(基于表现的资助模型)是一个与其他国家不同的基于绩效的资助系统(Performance- Based Research Funding Systems, PRFS), PRFS主要有三种典型类型[8]:
(1) 同行评议为基础(Peer-Review-Based), 如英国的REF(原RAE)。
(2) 以出版物为基础(Publication-Based), 挪威模型就属于此类, 除此以外还有澳大利亚、芬兰和丹麦。尽管澳大利亚的模式也属于以出版物为基础, 但是它并没有像挪威模型这样对于出版物进行分级划分, 而是同等地对待不同来源、不同类型的出版物, 事实证明澳大利亚这样的模式带来了显著的不良出版行为风险[15]。Schneider等也对此进行了验证, 使用荷兰莱顿大学开发的指标对挪威模型的影响进行检验, 分别是引用非参数百分比指标Top10%、平均归一化引文得分(Mean Normalized Citation Score, MNCS)以及用于期刊的平均标准化期刊评分(Mean Normalized Journal Score, MNJS)三个指标[16]。最终得出的结论是这种基于成果表现差异的资助模式使得挪威没有发生澳大利亚模式那样的情况, 即研究人员将成果大量地发表于影响力较小的期刊而导致整个国家引文影响力下降, 整体研究影响力受到减弱。
(3) 主要以引文为基础(Citation-Based), 如波兰、瑞典、比利时。
上述国家大多在自己的PRFS里或多或少地借鉴了挪威模型, 迄今为止, 比利时、丹麦、芬兰、瑞典、葡萄牙和挪威等6个欧洲国家都采用了挪威模型[17],如图3所示, 且取得了不错的效果, 并根据自己国家的情况在不断完善和改良该模型。
丹麦的评估覆盖了所有大学及其研究领域[20], 通过与每所大学进行对话, 让他们提出对挪威模型进行改进的想法, 并被纳入后续工作中。丹麦的PRFS名叫BFI, 它与在挪威实施的挪威模型有4点不同[21,22]:
(1) BFI仍然缺乏明确的目标, 这体现在目前实施的效果并没有解决丹麦所面临的特定挑战, 更多的还是一个传统的学术出版指标, 因此还有待于进一步提高透明性和合法性以起到问责机制的作用。
(2) BFI仍然缺乏明确的激励作用, 大学无法知道每一年资金重新分配的具体细节。
(3) 在丹麦各个主要学科领域的资助是独立的资金分配, 挪威模型的意图之一即跨领域通用的得分和比较在BFI里没有被采用。
(4) BFI在数据质量和文献系统的完整性上仍然不足, 目前并不是一个功能完善、透明而且有系统的数据质量保障的文献系统。
总体来看, 尽管丹麦的BFI模式有从挪威模型借鉴的部分, 但是如果站在向挪威模型靠拢的角度看, 还有很多不足, 很多方面没有得到足够重视, 这其中一定存在政策的原因, 每一个国家的教育部对于资金分配的政策想法都不尽相同, 有这样的差异可以理解。
芬兰从2013年开始就已经拥有自己的以出版物指标为基础的资金分配模式。和挪威模型类似, 这一模式也是基于综合性的国家层次出版物数据, 由一个名为VIRTA的出版物信息服务提供数据。2015年开始, 芬兰也引入挪威模型, 在原有的模式上加入挪威模型的领域通用的成果得分, 并称之为出版物权威清单(Publication Forum Authority List)[23]。在芬兰, 不同来源的出版物分为4个等级: Level 3、Level 2、Level 1和Level 0, Level 3是最高等级。与这4个等级配套的还有出版物类型, 分为A-E共5种类型: A类型下有子类型A1-A4, 主要指经过同行评议的文章; B类型下有三个子类型, 指未经过同行评议的文章; C类型下有两个子类型, 包括经过同行评议的专著(C1)和经过同行评议的书、特刊(C2); D类型下有6种子类型, E类型下有三个子类型。D类型和E类型都属于Not-Refereed的出版物, 这些出版物有面向普通公众的科普读物, 也有一些研究进展报告, 在权重划分时也加入未经同行评议的类型, 给予较小权重, 具体权重如表3所示(表3中权重是目前正在应用的最新值, 应用实践范围是2017年-2020年)。
瑞典只在部分大学推行了挪威模型, 瑞典高等教育部从2014年开始的一项调查发现[24], 27所大学中有11所推行了挪威模型, 并且每一所大学的推行学科和具体情况也不尽相同, 具体如表4所示。在瑞典的学者中, 大部分人知道挪威模型的存在, 并且挪威模型也已经影响了一部分他们的科研资金的分配, 不同学者对于挪威模型的态度是矛盾的, 有些学者认为这仅仅是加强了在他们领域的现有趋势, 而另一些学者则认为这是一种激进的、不太受欢迎的出版实践的转变。有一些学者更喜欢挪威模型, 这至少不是因为它把书本这一出版物类型包括进来, 而另一些人则不那么赞成[25]。
2002年-2013年间北欧4国在WOS发文数量占全球份额的变化情况如图4所示[17]。值得关注的是, 挪威、瑞典、丹麦和芬兰推出基于成果得分的时间分别是2004年、2009年、2009年和2015年。在4国政府采纳成果得分指标之前, 除挪威在2002年-2004年间的论文占全球份额缓慢上升外, 其他国家几乎都呈下降趋势。在推出基于成果得分的机制后, 4个国家的论文占全球份额都呈现出上升趋势, 挪威的上升速率也加快。由此可以看出这一激励机制在国家层面带来的影响。
综上可知, 在国家层面, 将挪威模型用于基于成果表现资金分配的一部分参考指标是有效的, 在不同程度上促进了科研人员的成果产出, 而其他方面如出版类型、语言、合作规模、出版周期和引文影响等都基本维持稳定。
挪威模型旨在平等和适当地涵盖所有研究领域的学术成果, 尊重不同领域的成果发表形式和规律。挪威实施该模型的典型方法是由政府出面让每一个主要研究领域的专家参与进来, 比如由校长会议任命院长代表相应院系/机构, 或者由国家一级学术团体任命的专家作为代表。代表性的研究人员直接参与国家对于出版物指标的设计和修改, 获得全面的、可比较的、简单的、平衡的、动态的且覆盖所有研究领域的文献计量指标, 而不是对各个领域的学术出版标准进行分开计算。
挪威模型在纵向上从微观到宏观、从个人到院系/机构再到国家层面, 在横向上从自然科学和技术科学到人文科学和社会科学, 对国家的科研管理和科研信息评估与监测都发挥了积极作用。总而言之, 该模型到目前为止的应用效果较好, 值得进一步改进和推广, 为更多国家提供帮助, 构建一个更好的科研信息数据平台和更合理的科研评估与监测体系。
中国的科研机构与科研人员数量巨大, 不可能简单或直接地应用挪威模型。挪威模型对中国的参考价值不在于模型的指标本身, 而是该模型所蕴含的思想, 在推进评价制度改革的背景下, 合理借鉴挪威模型的思想及管理方法, 对中国制定相应的科技评价方法具有参考价值。
(致谢: 本文在撰写过程中, 武汉大学张琳教授和挪威Gunnar Sivertsen教授推荐了参考文献并给出了撰写建议, 特此致谢!)
刘强: 相关文献检索、阅读, 论文起草和修改;
陈云伟: 设计研究思路和框架, 修改论文;
张志强: 论文最终版本修订。
所有作者声明不存在利益冲突关系。
[1] |
[本文引用:1]
|
[2] |
[本文引用:1]
|
[3] |
|
[4] |
[本文引用:3]
|
[5] |
[本文引用:1]
|
[6] |
[本文引用:4]
|
[7] |
[本文引用:1]
|
[8] |
|
[9] |
[本文引用:4]
|
[10] |
[本文引用:1]
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
[本文引用:1]
|
[16] |
|
[17] |
[本文引用:3]
|
[18] |
|
[19] |
[本文引用:1]
|
[20] |
[本文引用:1]
|
[21] |
URL
[本文引用:1]
|
[22] |
[本文引用:1]
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|