现代图书情报技术  2016 , 32 (5): 9-21 https://doi.org/10.11925/infotech.1003-3513.2016.05.02

综述评介

主流Meta分析软件功能及其在领域知识发现的拓展应用研究*

刘红煦12, 曲建升1

1中国科学院兰州文献情报中心 兰州 730000
2中国科学院大学 北京 100049

Using Meta-analysis Software for Domain Knowledge Discovery

Liu Hongxu12, Qu Jiansheng1

1Lanzhou Information Center, Chinese Academy of Sciences, Lanzhou 730000, China
2University of Chinese Academy of Sciences, Beijing 100049, China

中图分类号:  G250

通讯作者:  曲建升, ORCID: 0000-0002-4809-1437, E-mail: jsqu@lzb.ac.cn

收稿日期: 2015-12-11

修回日期:  2016-01-17

网络出版日期:  2016-05-25

版权声明:  2016 《现代图书情报技术》编辑部 《现代图书情报技术》编辑部

基金资助:  *本文系中国科学院战略性先导专项项目“国别排放监测及政策分析数据库”(项目编号: XDA05150100)的研究成果之一

展开

摘要

目的】研判Meta分析的未来发展趋势, 为基于Meta分析的领域知识发现提供借鉴。【方法】梳理对比国际常用的Meta分析软件的特点及其计算、绘图等功能的差异, 并以资源环境学科领域为例, 提出适合具体领域知识发现的Meta分析工具应具有的基本特点。【结果】通过对具体领域分析, 开发一套操作界面规范、运算步骤简单、分析结果准确、面向对象大众的文献综合集成工具的基本构想。【局限】并未通过构建平台系统地实施, 充分验证设想的可行性; Meta分析固有的一些弱点如“苹果”、“橘子”问题, 无法在基于Meta分析的领域知识发现中有效解决。【结论】需基于Meta分析构建领域知识发现的平台, 以指导领域文献知识发现的拓展应用。

关键词: Meta分析 ; 知识发现 ; 软件对比 ; 资源环境

Abstract

[Objective] We try to predict the future trends of Meta-analysis methodology, and improve the performance of domain knowledge discovery tasks. [Methods] First, we reviewed the features of popular Meta-analysis software, as well as their differences in computing and graphics functions. Second, we designed a Meta-analysis tool for the resources and environment science. [Results] We developed a new concept for public oriented Meta-synthesis tool with standardized interface, simplified procedure and accurate results. [Limitations] We did not examine the feasibility of the new tool on a working platform, The inherent weaknesses of Meta-analysis cannot be avoided in the domain knowledge discovery. [Conclusions] We need to build a platform for the domain knowledge discovery with Meta-analysis technology and then expand its application in literature discovery.

Keywords: Meta-analysis ; Knowledge discovery ; Software comparison ; Resources and environment science

0

PDF (524KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

刘红煦, 曲建升. 主流Meta分析软件功能及其在领域知识发现的拓展应用研究*[J]. , 2016, 32(5): 9-21 https://doi.org/10.11925/infotech.1003-3513.2016.05.02

Liu Hongxu, Qu Jiansheng. Using Meta-analysis Software for Domain Knowledge Discovery[J]. 现代图书情报技术, 2016, 32(5): 9-21 https://doi.org/10.11925/infotech.1003-3513.2016.05.02

1 引 言

作为一种定性、定量相结合的文献综合集成方法, Meta分析的基本思想产生于20世纪30年代, Meta分析普遍的定义是Fleiss等提出的[1], 即Meta分析是一类用于比较和综合针对同一领域问题所取得的研究结论的统计方法, 比较和综合的结论是否有意义取决于这些研究是否满足特定的条件。Meta分析在领域知识发现中起到了重要作用, 但现有图书情报领域的Meta分析研究主要是手工实现操作流程, 极少借助软件实现, 缺少对图书情报大环境下领域知识发现的宏观流程把握, 没有形成流程化的数据处理方式及平台设计。笔者拟针对这一点, 对现有图书情报领域可以借鉴的Meta分析软件和工具进行对比分析, 同时提出开发一款用于领域知识发现的Meta分析工具, 这对于促进图书情报学科知识服务具有一定的必要性及可行性。

目前国内外关于领域知识发现这一问题的研究, 主要针对特定学科领域进行具体的知识挖掘, 解释某一具体领域实现方式, 缺少对图书情报大环境下知识服务的宏观流程把握, 没有将传统的Meta分析软件应用于领域知识发现, 更未开发适用于特定领域的Meta分析平台。Benites等[2]通过本体间与本体内成对的关联规则挖掘, 发现生物学不同本体间或者单本体部分内容中的关系, 为用户提供生物学新知识。Moreno等[3]针对阿尔茨海默病构建特定的生物医学本体, 通过建模促进疾病机理研究。Tseng等[4]基于基因芯片数据和基因本体论的概念层次, 提出一种新的数据挖掘方法, 以探索多层次的基因关联规则, 从而发现隐藏的多层基因的关联规则。基于现有研究成果, 笔者对目前主流的面向领域知识发现的Meta分析软件进行对比研究, 并据此提出开发适用于特定领域知识发现的Meta分析软件的设想。

2 主流Meta分析软件基本特征对比

随着Meta分析方法不断普及, Meta分析软件也日趋多样。曾宪涛等[5]比较11款网状Meta分析软件的特征及功能, 对软件的基本特征、功能和计算结果进行了比较, 发现无一款软件同时具备较佳计算能力与绘图功能。考虑到Meta分析在资源环境学科的拓展应用, 将Meta分析分为5类, 对比各软件在实现不同类型Meta分析中的基本特征, 如表1所示:

表1   Meta分析常用软件基本特征

   

基本属性Meta分析类型软件名称
编程软件免费几乎所有的Meta分析R
BUGS
JAGS
Stan
二分类数据、连续型数据的Meta分析Meta-Stat
EasyMA
收费几乎所有的Meta分析Stata
Excel
SAS
MATLAB
SPSS
非编程软件免费间接比较的Meta分析ITC
二分类数据、诊断性研究、连续型数据的Meta分析Meta-Analyst
二分类数据、诊断性研究、单组率的Meta分析Meta-DiSc
二分类数据、连续型数据的随机对照试验直接比较证据的Meta分析TSA
二分类及连续型数据、间接比较及网状Meta分析GeMTC
ADDIS
除间接比较及网状Meta分析之外的Meta分析RevMan
MIX
收费主要用于生态学的定量Meta分析Meta-Win
除间接比较及网状Meta分析之外的Meta分析CMA
StatsDirect

新窗口打开

(1) 单个率的Meta分析。在医学上常用于患病率、检出率、知晓率及病死率的探析。该类数据的特点是仅有单组事件发生数和观察总数, 而无对照组。目前, 在Stata软件[6]、R软件[7]以及RevMan软件[8]中国内已有文献介绍。

(2) 单纯P值的Meta分析。当所纳入的研究仅给出了P值, 按照Cochrane系统评价员手册[9]的计算方法无法计算出所需数据, 当实践需要合并时, 可以考虑仅对P值进行合并。

(3) 累积Meta分析。累积Meta分析是指将研究资料作为一个连续的统一体, 按照研究开展的时间顺序, 及时将新出现的研究纳入原有数据[10]

(4) 网状Meta分析(Network Meta-analysis, NMA)。近些年其方法学与制作软件均迅速发展[11-13], 与传统Meta分析相比, NMA因纳入干预措施多、数据量大、内在结构复杂, 因此对软件的依赖更为突出[14]。尽管目前有多款软件可实现NMA分析, 但尚无能独立且全面实现NMA计算及图形绘制的软件[15], 必须多种软件相互配合。

(5) Meta回归分析。Meta回归分析用以评价研究间异质性的大小及来源, 主要通过多因素的效应量联合, 且当Meta分析纳入的研究数量在10以上时进行[10]

通过检索CNKI、Web of Science等网站, 对已发表的Meta分析文献中使用的软件等方法学进行分析, 最终纳入22款软件, 其基本特征详见表1, 笔者重点分析其中常用的11款, 如表2所示。22款软件中Meta分析程序的通用软件包括Stata、R、SAS、Excel、SPSS、BUGS(包括WinBUGS及OpenBUGS)、MATLAB[16]

表2   11款常用的Meta分析软件比较

   

软件名称StataRExcelSASMATLABRevManMIXCMAMeta-WinMAMD
软件分级基础级
提高级
专业级
数据格式可导入数据××
多种数据格式×××
变量类型二分类变量×
连续性变量×
分析类型率的分析××
单纯P值分析××××
累积Meta分析×××
网状Meta分析×××××××
Meta回归分析×××
异质性
检验
P××××××
Q××
I2×××
发表
偏倚检验
Begg’s检验×××××
Egger’s检验×××××
Meta分析
模型
固定效应模型
随机效应模型
混合效应模型×××
绘图功能森林图
漏斗图×
拉贝图××××××
星状图××××

(注: √表示具备该功能; ×表示不具备该功能, 说明该软件目前尚未研发此功能, 或目前没有人对此功能进行探索。)

新窗口打开

各个软件都有自己独特的风格, 也存在一些不足, 如除了通用软件Excel外其他软件均没有中文版; RevMan易用性强, 可以实现统计计算和系统评价的整合, 但界面复杂且灵活性欠佳。Stata软件功能强大, 可实现多种类型的Meta分析, 但是操作复杂, 需要调用相应的命令并进行程序编写[17]; SAS、SPSS系统庞大、结构复杂, 没有固定的模块, 非统计专业人员难以运用自如, 且正版软件价格不菲, 难以获得[18]; SAS、SPSS、MATLAB在Meta分析方面均没有Stata和R友好, 且学习的难度较大, 故应用的群体较少。因此, 笔者将对现有的Meta分析软件进行对比总结, 拟开发出一套适用于多学科、可实现多种功能的Meta分析软件。

2.1 编程软件

按是否需要编程, Meta分析软件又可分为编程软件与非编程软件, 编程软件有Stata、R、Excel、SAS、MATLAB、Meta-Stat、BUGS、JAGS、Stan、EasyMA、SPSS, 其余为非编程软件。

Stata同时具有数据管理、统计分析、绘图、矩阵计算和程序语言的特点[19], 操作系统还有Linux和Mac[20]。Stata在Meta分析中的运用已经被逐渐开发出来, 可以实现多种分析功能[21]。R软件通过相应的程序包完成Meta分析, 其中, Metafor程序包是R软件Meta分析程序包中唯一可以进行混合效应模型拟合运算的[22]。Excel具有较强的数据库编辑和统计分析能力以及便捷的绘图功能[23], 在Excel软件中实现Meta分析逐步受到重视, 国外学者已进行了一些探索[24]。国内王峰娟[25]利用Excel软件的统计函数编写了Excel的计算程序, 发现Excel软件在进行Meta分析时具备准确性、简便性、稳定性及可拓展性的特点。SAS(Statistical Analysis System)软件具有完备的数据访问、数据管理、数据分析和数据呈现功能[26], 使用不同的编码可灵活处理各种数据[27]。利用SAS软件的宏可以减少输入的文本量, 使程序模块化[28]。Hedges等[29-30]利用SAS软件开发了一套用于Meta分析统计效能计算的程序, Cafri等[31]于2009年共同开发了MetaPower宏, 专门用于实现Meta分析统计效能计算。MATLAB软件广泛应用于数学、医学统计、数字模拟等领域, 胡小刚等[32]基于MATLAB软件编写了单一率的Meta分析的实现程序, 非专业人员只需替换数据即可方便实现。肖静等[33]通过实例分析验证利用MATLAB程序实现单一率Meta分析结果的可行性和有效性, 并完成异质性和发表偏倚的检验。黄清水等[34]基于MATLAB软件, 依据对诊断试验进行系统评价SROC曲线法数理统计推导。

2.2 非编程软件

RevMan(Review Manager)软件在系统评价中已广泛使用。RevMan是所有Meta分析软件中唯一可与GRADEprofiler软件相互导入进行证据等级评级的软件[8]。CMA(Comprehensive Meta-Analysis)软件是Meta分析的专业软件。其结果中录入的数据和计算结果不同的颜色, 可以生成高清晰的图片, 可以调节颜色、布局、字体, 并能转成Word或者PPT格式[35]。Meta-Analyst(MA)除可进行二分类及连续性变量、诊断试验的Meta分析外, 还可进行单组率Meta分析、累积Meta分析及剔除单个研究行敏感性分析等[36]。MetaWin是一个主要为生态学工作者设计的定量Meta分析软件, Gurevitch出版了第一部生态学中的Meta分析专著, 并与人合作于1997年发行了MetaWin软件包, 然而MetaWin只可进行定量Meta分析[37]。Meta- DiSc(MD)是一款诊断试验Meta分析专用软件[38], 可用于多个诊断或筛检试验评价的Meta分析, 采用多种计算方法进行Meta分析[39], 目前已被多种高级别杂志的论文应用或引用[40-42]

3 面向知识发现的Meta分析软件功能对比

笔者对11款常用软件从计算功能和绘图功能等基本功能进行优劣势比较, 为进一步将Meta分析软件应用于知识发现, 故基于基本功能, 进一步对11款主流Meta分析软件在知识发现中的应用功能进行比较, 以促使定量化工具在知识发现领域的应用。

3.1 基本功能对比

对11款常用软件从计算功能和绘图功能上分别进行优劣势对比, 具体如表3所示。

表3   Meta分析常用的软件功能对比

   

软件名称计算功能绘图功能
优势劣势优势劣势
Stata自由度大、功能全面且丰富、实现了易用和功能的协调无单一率Meta分析的固定模块且不易上手做图类型全面、所做图形简单明了图形不够美观, 图形调整需通过编程, 不够灵活
R功能全面且丰富, 对于网状Meta分析, 方法最多、表现最灵活且功能最完善程序编写复杂且难度较大, 对使用者的要求较高做图较为精美且全面绘图与分析相互独立, 需自己定义生成图的类型
Excel自由度极高、功能全面且丰富统计分析编程过程复杂、尚未实现定量评价发表偏倚做图类型全面、精美且调整便捷图形所需数据预处理大多手工完成, 公式编辑不直观
SAS自由度极高、功能全面且丰富, 程序易读、便于修改、移植、方便重复使用, 多用于网状Meta分析程序编写复杂且难度较大, 对使用者的要求较高作图灵活、所做图形十分美观图形背后的模板语言庞大且不易用, 难以掌握高级功能
MATLAB自由度极高、结果的计算精度可自由控制, 多用于单一率的Meta分析、计算精度可以通过程序自由控制、与其他语言的兼容性甚佳、多用于单一率的Meta分析程序编写复杂且难度较大, 对使用者的要求较高有强大的做图功能, 所做图形比同类软件更为美观图形调整需通过编程, 不够灵活
RevMan易用性强、较为普遍、容易上手不能定量分析发表偏倚的大小, 不能进行Meta回归分析、累积Meta分析、诊断性分析等导出图片无须过多修饰处理功能单一、不可以做拉贝图, 森林图显示存在一定的问题、界面与操作复杂, 容易出错
MIX主要是嵌入Excel实现Meta分析, 操作简单缺乏灵活性、无法进行大量数据分析及双变量分析等高级分析做图种类丰富图形不够美观, 缺乏灵活性
CMA专门做Meta分析的统计软件、无需编程、更灵活且易操作不能做诊断性分析等图片清晰美观、可以调节颜色、布局、字体并能转成Word或PPT格式做图种类局限
Meta-Win专用于生态学工作者定量Meta分析、操作简单且功能较全、可进行重取样检验不能对效应值设置研究质量权重、不能进行定性Meta分析做图种类丰富图形不够美观, 缺乏灵活性
Meta-Analyst专门做Meta分析的统计软件、无需编程、更灵活且易操作专做二分变量、连续变量及诊断性分析, 其他功能缺乏做图种类丰富图形不够美观, 缺乏灵活性
Meta-DiSc专用于诊断试验Meta分析, 可以视窗操作, 是当前非编程软件中进行诊断性Meta分析的最好软件缺乏灵活性、无法进行大量数据分析及双变量分析等高级分析可生成森林图、ROC平面及SROC曲线图图形不够美观, 缺乏灵活性

新窗口打开

(1) 计算功能

计算能力是统计软件最基本要素之一。随着Meta方法学不断创新, 基于软件自身及对最新方法学的植入差别等, 使得目前可供使用的软件各具特色。笔者针对Meta分析不同特点进行对比分析, 如固定效应模型和随机效应模型[43]; 对于率的Meta分析, Stata、R、RevMan等都可以。Stata常用于做累积Meta分析, R由于具有丰富的程序包往往用来做网状Meta分析。此外, 不同软件各具优缺点, RevMan易用性强, 可以实现统计和系统评价书写的整合, 但它仅通过漏斗图直观地判断有无发表偏倚, 不能定量分析存在发表偏倚的大小[19]; R功能较全面, 除可实现率的Meta分析外, 还可进行Meta回归等, 但需进行编程; Stata软件虽为目前Meta分析最受推崇的软件之一, 但无单一率Meta分析的固定模块。R、Stata及SAS在拥有自身独立运行能力的同时, 不仅可以灵活调用外界软件, 还能方便地被外界软件所调用。鉴于使用途径迥异, 这些软件在Meta惯用的方法学上也有所差异, 如在网状Meta分析时Stata自身运算使用metareg与mvmeta模块[44], 调用外界软件常用WinBUGS, 被外部软件调用则可通过R软件或SAS软件实现。

(2) 绘图功能

软件是否拥有绘制优质图形的能力也成为衡量软件质量、功能和可操作性的指标之一。Meta分析常需绘制以下4种图形: 森林图、漏斗图、拉贝图及星状图。这4种图形所承载的信息不同, 其在Meta分析中的功能作用亦不同。Stata、R、Excel及SAS软件能够绘制全部4种图形, 做图相对较为美观, 但需要编程辅助调整, 实现过程相对复杂。CMA、Meta-Win、Meta-Analyst、Meta-DiSc等专门用于Meta分析, 在绘图功能中各有侧重, 且操作灵活、简单。

3.2 知识发现中的应用比较

知识发现从一开始就是面向应用的, 这一特点凸显了知识发现软件(知识发现理论技术和应用之间的桥梁)和工具的重要性。随着知识发现与数据挖掘理论和技术的不断创新发展, 知识发现软件和工具不断地涌现和完善, 用户需求也在不断地增加。每种知识发现任务, 都有众多的实现技术和方法, 主要包括归纳学习方法、统计分析方法、机器学习方法、模糊论方法、数据库技术、可视化技术等[45]。在一个具体的知识发现任务中, 数据对象的特征决定挖掘算法的选择, 进而决定知识发现的效果, 因此需要评估具体实现算法的适应性。

对11款常用的Meta分析软件在知识发现中的应用进行对比分析, 发现仅有Stata、R、Excel、SAS、MATLAB五款通用Meta分析软件在知识发现中有部分应用, 而专门用于Meta分析的软件则较少应用于知识发现中(见表4), Meta分析软件在知识发现中主要实现定量化统计分析功能, 知识发现的基本过程包含对文献中的单词、短语以及主题概念进行词频统计、语义过滤和共词聚类分析等, 尽管用于知识发现的统计工具软件如SAS、SPSS等已经发展得相当成熟, 但是整个知识发现过程所需要的各种软件工具还是很少, 且这些软件往往只能实现某一个单一的过程, 完成知识挖掘中的一个环节, 目前还没有免费的指导完整知识发现过程的软件, 且该过程相对复杂, 尚不能在科研工作中普及。知识发现过程是情报工作人员应积极探讨的领域。情报研究人员可结合情报学及统计学的知识, 采用内容分析方法、Meta分析方法探索知识发现过程, 展开对这一领域的探讨。

表4   典型Meta分析软件在知识发现中的应用

   

软件名称知识发现中的应用
技术方法实现的功能
Stata决策树、多元回归和神经网络等技术。通用的数据挖掘软件。
R相关分析、多维尺度分析、主成分分析、因子分析和
聚类分析等多元统计分析方法。
聚类、生成词云等文本挖掘可视化。用于文献数据挖掘的开放的R资源库可实现文献查找、构建共现矩阵、部分可视化等功能, 便于分析主题词的相关性。
Excel词频分析, 即对单词、短语和主题概念进行词频统计。研究学科的内容和研究热点, 常结合TDA进行文本挖掘及可视化或与其他工具集成。宏命令可实现文摘抽取等功能。
SAS决策树、多元回归和神经网络等技术; 关键词/主题词
/专利IPC技术词条共现和高被引文献的共被引聚类
分析和多维尺度分析。
通用的数据挖掘软件, 同时可与SAS数据仓库和OLAP集成, 实现从提出数据、抓住数据到得到解答、可视化的“端到端”知识发现。
MATLAB相关分析、多维尺度分析、主成分分析、因子分析和
聚类分析等多元统计分析方法, 如词共现、文献共被
引的Ochiia相异矩阵转换计算。
实现关联分析、分类分析、聚类分析和自动预测等数据挖掘功能以及知识可视化。

新窗口打开

表4可知某些软件在特定情况下可以被借用完成一些知识发现功能, 如数据挖掘等, 例如MATLAB的神经网络工具包以及其他的一些统计软件, 但这些软件本身的设计目标并非进行知识发现。虽然这些主流Meta分析软件在知识发现中或多或少存在一些不足, 尚未被科研人员广泛认同, 但其强大的数据分析分析功能使其在未来的科学发展中具有广阔的推广前景, 对科学发展具有巨大的促进作用。

4 适用于领域知识发现的Meta分析软件实例分析

通过对现有Meta分析软件多角度对比, 可知一个好的面向知识发现的工具应该可以连接尽可能多的数据库管理系统和其他类型的数据源, 同时它应该可以与其他工具软件集成, 例如查询工具、可视化工具等。为了促进知识发现在多学科应用, 笔者以资源环境学科为例, 将现有Meta分析工具的优缺点加以整合, 指出资源环境学科Meta分析工具的基本特点, 以指导多领域Meta分析软件用于知识发现的扩展实现。

4.1 在资源环境学科知识发现的应用现状

资源环境学科主要数据类型不是二分类对照数据, 其研究形式是时间域和空间域的二维定位, 且具有独特的经纬度特征, 因此Meta分析方法在该学科的扩展具有独特的意义。

20世纪90年代, Meta分析方法及工具开始应用于资源环境领域。Gurevitch等[46]最早于1993年出版了第一部生态学的Meta分析专著后, 发行了MetaWin软件包, 用于生态学的知识发现。1998年, 彭少麟等[47]首次将Meta分析方法引入我国生态学界, 并对MetaWin软件包进行生态学分析[48-49], 且将Meta分析应用于对照实验的综合研究中, 目的是判断实验中的处理会对实验对象产生正或负效应及效应大小; 同一主题下不同独立实验的结果是否一致, 变异程度等问题[37]。在历史地理学领域, 为探究历史气候变化研究存在差异的主要原因, 葛全胜等[50-54]对已经发表的由不同作者利用历史文献资料重建的温度变化序列为研究资料, 利用Excel、MATLAB等工具, 采用相关分析、聚类分析、假设检验等统计方法, 对不同学者的已建序列进行定量综合分析, 以达到个体研究结论的提炼及知识发现的目的。张小娟[55]以北京为例通过SAS研究数据挖掘技术在水资源领域的应用, 但仅运用统计分析类方法研究数据挖掘在用水等方面的应用, 没有研究神经网络、决策树、关联规则等知识发现方法。秦碧君[56]基于MATLAB使用BP神经网络对能源消费碳排放进行有效预测。刘瀚林[57]釆用Meta分析的方法, 运用SPSS、RevMan软件探讨围填海工程建设后对海洋生态环境的影响。Zinn等[58]利用SAS软件对不同经营方式下巴西的土地利用对土壤有机碳影响的趋势和幅度进行Meta分析。张玲等[59]利用Stata软件, 应用Meta分析和多元回归分析方法构建中国湖沼湿地生态系统服务的Meta分析价值转移模型。陈仁杰[60]利用R软件对我国复合型大气污染的健康危害特征进行研究。金鑫等[61]利用R软件对近年来我国公共场所集中空调通风系统的卫生指标进行Meta分析。

通过软件对和案例整合可以发现, Stata软件较好地实现了易用和功能的协调, 在数据管理和前沿统计方法中功能十分强大[62], 即便如此, 在进行特定领域知识发现如资源环境学科分析时, 由于其独特的学科特点, 仍不能完全适用, 综合分析这些软件在资源环境领域应用现状, 可以发现这些软件大都仅参与Meta分析的部分过程如结合效应值的计算、偏倚检验等, 尚不能完整实践Meta分析处理过程, 进行知识发现。因此编写一套操作界面规范、运算步骤简单、分析结果准确、面向对象大众的Meta分析软件对于Meta分析应用者, 对于非统计学专业人员具有一定的现实意义。

4.2 资源环境学科属性分析

资源环境学科研究范围十分广泛。就时间域而言, 人类与自然之间影响最大的时间段是数十至数百年或更小尺度。该时间段内人类投入大量人力、物力, 研究主线是以大气- 水- 植被- 土壤等环境要素展开。从空间域来看, 任何一个区域, 小至一个现象, 大至整个地球都是其研究内容, 目前该学科研究的空间域在向深度和广度发展, 从地下介质的精细结构扩展到整个地球的变化。因此, 从时空域看, 资源环境科学从区域到全球等几个层次, 采用单一与综合相结合的方法进行研究[63]

资源环境领域空间和时间是地理现象的两个基本特征[64], 是地理空间分析的两大基本要素[65]

属性的时间信息是指地理事物的属性或几何特征随时间变化而发生改变[66], 可能反映了属性特征的变化, 例如, 一个城市每天的气象数据不尽相同, 某地空气污染指数在不同季节有所区别等。时间信息可能反应了空间几何特征的改变, 例如城市的空间范围在不同年代不一样, 台风随着时间推移其位置不断改变等。

属性的空间域特点是指资源环境科学研究的对象是客观存在的整个地球系统, 可分别独立地随时间改变, 也可同时随时间变化, 可通过经纬度坐标对其定位。同一时间或时间段不同属性的空间分布存在不同, 如夏季不同区域降水量存在差异, 一天之中长江不同流域的水位不同等。因此资源环境领域数据的构成应是四维空间, 即数据D(横向X, 纵向Y, 深度Z, 时间T)[63]

4.3 时空可视化特点分析

传统的统计数据可视化表达方式侧重于图表分析与概括性的计算分析, 往往忽略或简化了统计信息的空间分布特征。随着计算机技术的发展, 基于地理空间数据整合多来源、多部门的统计数据资源, 利用地理信息系统的空间可视化技术来表达统计数据包含的信息已经成为统计数据资源利用的新途径[67]。地理信息系统(Geographic Information System, GIS)是用于采集、模拟、处理、检索、分析和表达地理空间数据的计算机系统[68]。在地理信息系统中, 空间信息可视化在表现内容上来看最常用的是地图(图形); 空间维数上主要是二维可视化及多维动态可视化等。

由于资源环境学科数据的二维属性, 可通过时空信息可视化进行直观输出。如在地学领域, 地学可视化主要侧重于地理计算可视化和地理信息可视化。王伟星等[69]提出地学可视化的基本定义并讨论分析其概念特征、理论基础和表达方法。认为地学知识可视化是地学研究领域引进知识可视化理论、方法、技术形成的新的研究方向, 是关于地学知识的视觉表达与分析。

综上, 对资源环境学科的知识进行Meta分析, 需考虑其时空特点, 一方面, 由于数据多为无对照测量, 传统的数据格式如二分类变量以及对照实验均不再适用, 而由基础Meta分析发展而来的累积Meta分析、网状Meta分析、Meta回归分析等方法, 因其所适用的数据类型多样, 依旧可以用于资源环境学科数据的分析。如何组织数据并进行改造, 需要研究人员进一步探索。笔者认为基于以上各软件优缺点, 可开发一款功能完整的适用于资源环境学科的Meta分析软件。

4.4 基于领域知识发现的Meta分析软件设计思想

通过以上分析, 可以得知由于资源环境学科领域数据以时空多维表形式展现, 目前急需改造原有Meta分析软件或开发全新的综合集成分析平台, 笔者认为尽管现有软件可以进行部分Meta分析, 但开发一套从数据采集到结论输出的完整Meta分析过程的软件至关重要。全新的软件以地学循证研究为指导, 基本分析过程是:

(1) 文献获取。基于某一研究主题, 通过嵌入式检索系统进行文献检索, 并及时存储于数据库内, 以便进行文献纳入排除与筛选;

(2) 人工解读文献。在消除人为理解的异质性后, 通过人工提取确保一定准确性, 该步骤需要人工详细解读文献, 为进一步确定文献提取格式做准备;

(3) 自定义提取格式、定制任务表格并进行内容提取。在将文献进行彻底解读后, 自定义知识提取的结构化格式并进行内容提取;

(4) 机器解读并处理。经过一定数量的文献内容提取后, 计算机自动对所提取的内容进行整合与集成, 如何确定统计方法以及如何通过机器实现数据集成是笔者下一步关注的重点;

(5) 生成集成结论。即形成同一主题下的集成结论, 以PDF、Word、Excel等格式形成文献综合集成报告。

(6) 地理信息可视化。集成后的结论中的地理信息进行基于GIS的可视化, 以时空二维展示。

对环境资源学科进行Meta分析时, 考虑到该领域文献特点, 笔者认为文献普遍具有的基本特征有: 篇名、摘要、关键词、发表年份、发表期刊、作者等, 可对这些基本信息基于统计学方法进行集成, 如在文献计量学角度分析作者发文情况、通过关键词分析研究热点等。此外, 对于非结构化的文献内容, 可对其进行知识提取、统计、整合, 这个过程属于广义上的综合集成。笔者认为通过规范化限制, 提取同一研究主题的各文献的学科领域分类、研究区域信息、研究工作时间、研究对象时间、研究对象信息、研究方法描述、研究方法评价以及文章研究结论等内容, 并对其进行结构化存储、统计, 得出一个集成化的研究结论, 该过程可实现对研究结论的集成。但是, 如何对这些信息进行结构化提取, 使其具有统计学意义, 并且在算法角度进行集成、统计, 形成新的结论或知识, 这是目前的研究难点。

4.5 实例研究

通过以环境资源学科为例提出适合领域知识发现的Meta分析工具应具有的特点, 针对所对比的特征和功能, 笔者将采用实验进行验证, 更科学合理、更有说服力地体现开发适用于资源环境学科的Meta分析工具的实用性和必要性。

笔者以国内现有的研究黄浦江水质的影响因素的量化实证结果为基础, 基于领域知识发现的软件设计思想, 人工实践这一系统处理过程。主要思路为对1977年-2012年35年间黄浦江不同时空条件下水质恶化及好转情况及其影响因素进行综合集成分析, 确定影响黄浦江水系水质变化的主要因素, 并形成综合集成结论。

文献获取阶段在CNKI平台的数据库中以“黄浦江”、“水质”为检索词, 在篇名及关键词中精确检索, 共检索到1983年-2014年发表的86篇文献, 人工解读后保留36篇全面介绍研究主题的文章。设定的内容提取模板如表5所示, 通过解读及处理后得到集成研究结论。

表5   黄浦江水质分析Meta分析信息提取模板

   

基本特征指标基本定性指标影响因素特征指标研究主体特征指标
编号学科领域年份及季节水质状况
文献名研究区域自然因素来水水质指标水温
作者研究时间降水溶解氧(DO)
关键词研究方法温度化学需氧量(CODCr)
发表时间出版物类型人为因素工业污染源高锰酸盐指数(CODMn)
期刊名数据来源农业污染源五日生化需氧量(BOD5)
作者单位生活污染源氨氮(NH3-N)
政策法规等
其他
政策法律总磷(TP)
其他主要污染物

新窗口打开

(1) 黄浦江水质的主要影响因素为来水、降水、温度、工业污染、农业污染、生活污染、政策法律、船舶等移动源污染等, 其中生活污染和上游来水对于水质影响最大。

(2) 空间上, 水质的主要影响因素为上游来水和沿岸污染源的排放, 影响程度依次为人类生活污染源、上游来水、工业污染源、农业污染源。

(3) 时间上, 黄浦江水质在1977年-2007年间经历了5个变化过程, 直到2012年水质维持在一个正常的水平, 整体上水质处于Ⅲ~Ⅴ类。季节对水质的影响主要体现在冬季水质好于夏季, 一年四季温度越高, 水质越差, 主要影响因素是来水、水温等自然因素及工业、农业、生活污染源的排放, 此外政策法律的实施可以有效改善水质, 船舶运输可使水质恶化。

具体指标分析过程笔者不再赘述, 这里只为说明以资源环境学科为例提出适合资源环境的Meta分析工具的可行性。

5 结 语

本文通过梳理对比国际上常用的各类Meta分析软件, 剖析各软件特点及其计算和绘图等功能差异, 研判Meta分析的未来发展趋势, 总结当前常用的基于Windows的Meta分析软件, 对比各个工具的特点, 并以资源环境学科领域为例, 提出适合资源环境学科领域的Meta分析工具所应具有的基本特点, 以指导Meta分析工具在资源环境学科领域文献知识发现的拓展应用, 为基于Meta分析的领域知识发现提供借鉴和思考。但是本文也存在一定的局限性, 即并未通过构建平台系统地实施该过程, 充分验证设想的可行性, 同时Meta分析固有的一些弱点也无法在基于Meta分析的领域知识发现中有效解决。

作者贡献声明:

刘红煦: 设计研究方案, 获取并分析数据, 论文起草;

曲建升: 提出研究命题及研究思路, 论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: hbelhx@163.com。

[1] 刘红煦, 曲建升. method.pdf. 研究方法详细描述.

[2] 刘红煦, 曲建升. tool.pdf. 直接研究工具详细描述.

[3] 刘红煦, 曲建升. result.xls. 完整版Meta分析软件对比结果.


参考文献

/