Advanced Search
数据分析与知识发现, 2019, 3(4): 80-89
doi: 10.11925/infotech.2096-3467.2018.0631
基于结构方程模型的疾病危险因素研究*
Research on Disease Risk Factors on Structural Equation Model
牟冬梅1,, 法慧1, 王萍1, 孙晶2

摘要:

【目的】利用结构方程模型分析客观指标数据, 对与疾病相关的危险因素进行挖掘。【方法】利用文献研究、线性相关分析方法提取疾病危险因素, 使用结构方程模型对这些危险因素进行分析; 使用分类回归树(Classification And Regression Tree, CART)算法构建疾病诊断模型, 利用诊断模型对危险因素进行定性、定量评价及对比分析。【结果】挖掘出9个与疾病相关的危险因素, 经定量评价后, 基于结构方程模型的疾病危险因素诊断模型各项指标均处于较高水平, 且整体性能更好。【局限】实验数据量有限。【结论】基于结构方程模型的疾病危险因素能够提高疾病的早期诊断率, 可以辅助临床决策。

关键词: 结构方程模型 ; 疾病危险因素 ; 数据挖掘 ; 疾病诊断

Abstract:

[Objective] This paper aims to use the structural equation model to analyze the objective index data and explore the risk factors related to the disease. [Methods] Based on literature research and linear correlation analysis, this paper extracts disease risk factors. Structural Equation modeling was used to analyze these risk factors. The disease diagnosis model was constructed using the classification regression tree (CART) algorithm, and risk factors were qualitatively and quantitatively evaluated and compared using diagnostic models. [Results] Nine risk factors related to disease were discovered. After quantitative evaluation, the indicators of disease risk factors diagnosis model based on Structural Equation Modeling were at a high level, and the overall performance was better. [Limitations] The amount of experimental data is limited, and the amount of data can be expanded to conduct experiments in the future. [Conclusions] Disease risk factors based on structural equation model can improve the early diagnosis rate of disease and can assist clinical decision-making.

Key words: Structural Equation Modeling ; Disease Risk Factors ; Data Mining ; Disease Diagnosis

1 引 言

随着大数据时代的到来, 全球数据量呈现指数型增长。医疗数据作为其重要的组成部分, 也在迅速增长, 医疗机构每年都会产生大量的数据, 有些大型医院甚至每年产生300TB-1PB的数据[1]。随着国家医疗卫生事业的不断发展, 对医院信息化建设的要求也越来越高, 电子病历系统应运而生, 并且成为医院信息化建设的核心[2]。电子病历数据是医疗大数据的主要部分, 主要包含患者的人口学信息、实验室检查信息、诊断结果、手术记录、病史及诊疗费用等, 除了能提供患者诊疗过程中的各项指标数据, 还蕴含着大量有价值的规律和信息。如何对这些海量数据资源进行深度挖掘, 从而更好地为临床诊疗、科研教学等进行服务, 已然成为数据科学领域的研究热点[3]

马费成[4]在研究中提到, 自然科学与社会科学应该相互学习借鉴, 注重不同研究取向和方式的结合。结构方程模型(Structural Equation Model, SEM)作为一种验证性统计分析方法, 主要被用于因果关系和先验假设理论的检验[5]。近年来, 结构方程模型在社会科学研究和自然科学研究中都备受青睐, 它通过测量模型和结构模型的结合, 在研究层次上取得较大突破[6]。目前, 结构方程模型在心理学、经济学、管理学、社会科学等领域被广泛应用, 并取得越来越多的成果[7]。因此, 本研究利用结构方程模型对电子病历的客观指标数据进行危险因素挖掘, 试图辅助临床决策, 并为临床数据的知识发现提供参考依据。

2 研究述评

蔡瑞初等[8]对非时序观察数据的因果关系的发现方法进行分类, 主要分为基于约束的方法、混合型方法及建立结构方程等因果函数模型的方法。金洲[9]提出基于约束的直接因果关系的发现方法, 有效提高因果发现的效率。Cai等[10]使用V结构发现基因的因果关系, 能有效地从高维数据中提取因果基因。而张润梅[11]则是建立基于贝叶斯网络的因果模型, 发现复杂的因果关系, 对股市态势进行预测。Chen等[12]提出结合结构学习的多原因发现方法(Multiple-cause Discovery combined with Structure Learning, McDSL), 将因果关系发现分为结构学习与方向学习两个阶段, 这种混合型方法能从高维离散数据中准确地发现因果关系。对于时序数据, 同样也存在很多因果关系研究。郝志峰等[13]提出归一化因果熵的方法, 用于衡量时序节点之间的因果关系强弱。袁畅[14]提出MCRN模型, 并用于社交网络的因果关系发现, 从而分析用户间的因果关系。

也有研究者利用结构方程进行因果关系研究。结构方程模型在国外的研究主要集中在影响因素分析、评价指标体系构建分析、满意度及竞争力评价分析等领域[6]。Detilleux等[15]使用结构方程模型分析奶牛群乳腺炎的影响因素, 以进行乳腺炎的防治策略研究。Emmann等[16]应用结构方程进行因果分析, 以确定农户对创新沼气接受程度的影响因素。Kim等[17]使用多组结构方程模型验证美国酒店业顾客满意度。而国内关于结构方程模型的研究主要集中在影响因素分析[18]、绩效评价[19]、满意度[20]及竞争力分析[21]等领域。其中, 结构方程模型在疾病的影响因素分析方面研究较少。如赵书亮[22]建立结构方程模型对抑郁合并2型糖尿病的影响因素进行分析, 为该疾病的防治策略提供依据; 李欣欣等[23]通过结构方程模型研究哮喘患者治疗依从性的影响因素; 江海冰等[24]使用偏最小二乘-结构方程模型(Partial Least Squares-Structural Equation Modeling, PLS-SEM), 对老年慢性病的影响因素进行研究, 从而为该病提供防治措施和建议。

综上, 结构方程模型已成为一种较为成熟的方法, 被广泛应用于各领域的因果关系探索, 但其在医学领域的研究依旧较少; 另一方面, 结构方程研究多利用调查问卷数据, 很少利用客观数据进行研究。目前, 医学信息学、医学统计学开始利用体检客观指标数据将结构方程模型用于与疾病相关的危险因素挖掘, 并利用挖掘出的危险因素作为特征向量, 构建疾病诊断模型, 试图辅助临床决策, 提高疾病的早期诊断率。理论方面, 将情报学中信息分析技术、知识服务理论与医学进行融合, 为情报学应用领域扩展提供思路; 实践方面, 促进医学领域数据应用, 为疾病诊断提供了新的方向。

3 基于结构方程模型的疾病-危险因素模型

为挖掘与疾病相关的危险因素, 构建基于结构方程模型的疾病-危险因素模型, 并构建疾病诊断模型进行危险因素评估, 如图1所示。模型主要分为两个部分, 即疾病-危险因素模型构建和疾病-危险因素模型评测。

图1 基于结构方程模型的疾病-危险因素模型

(1) 逻辑上递进的三个层次的危险因素挖掘, 最终挖掘出与疾病相关的危险因素。该部分需三个环节:

①在数据预处理的基础上, 利用文献调研法进行危险因素提取;

②利用线性相关进行第二次危险因素筛选;

③在前期疾病与危险因素相关研究基础上, 构建模型变量体系, 利用结构方程模型验证分析, 进行第三次危险因素选择, 并在参数检验和模型评价的基础上完成疾病-危险因素模型。

(2) 疾病-危险因素模型评测。构建疾病诊断模型, 利用疾病诊断性能对疾病-危险因素模型进行定性与定量评价。

3.1 疾病-危险因素模型构建

(1) 数据预处理

大数据环境下, 存在太多的非结构化数据、噪声数据及冗余数据, 这需要进行数据清洗, 即将文本数据数值化、剔除噪声数据、删除冗余数据。疾病数据多为异构及异地存储的数据, 需要进行数据集成, 将其整合为一个数据集。最后根据文献研究、诊断结果, 筛选与所研究疾病有关的变量, 并对欲探究是否相关的变量进行添加, 完成数据的预处理。

(2) 线性相关分析

相关关系的核心是将两个变量间的数量关系进行量化, 即当一个变量值发生变化时, 另一个变量值也会随之发生变化。线性相关分析探索单个变量与疾病之间的相关关系, 没有自变量和因变量的区分, 根据每个变量在疾病中是否存在显著性差异, 挖掘出与疾病存在相关关系的危险因素, 为下一步利用结构方程模型分析打下基础。

(3) 结构方程模型分析

结构方程模型分析不同于线性相关分析, 模型中包含可观测的显变量, 也可包含不能直接观测的潜变量, 该模型可分析单个变量对总体的作用和单个变量间的相互关系。在线性相关分析基础上, 继续探索单个变量对疾病的作用及变量间相互关系, 进行探索性因子分析, 构建模型变量体系, 建立结构方程模型并进行参数检验与模型评价, 从而挖掘出与疾病相关的危险因素。

3.2 疾病-危险因素模型评测

(1) 疾病诊断模型构建

根据预处理后的变量、基于线性相关的危险因素、基于结构方程的危险因素, 分别构建基于文献研究的诊断模型、基于线性相关的诊断模型及基于结构方程的诊断模型, 使用三种模型分别对疾病进行诊断。

(2) 模型评估

对三个诊断模型进行定性与定量分析, 评估疾病-危险因素模型。先从定性角度评价, 对三种模型进行简单比较; 后从定量角度评价, 根据预测结果得到查准率、召回率、正确率、特异度及F值这5个指标的值, 据此对模型整体性能进行评估, 最后对三种疾病诊断模型的结果进行对比分析。

4 实证研究——以前列腺癌为例
4.1 数据来源及预处理

(1) 数据来源

研究的数据为国家人口健康科学数据共享平台[25]的临床医学科学数据中心提供的前列腺癌数据集, 主要包括2006年-2012年的患者诊断数据、检查数据、各种实验室数据及手术、放疗和用药情况。原始数据简介如表1所示, 共10个表单。

表1 原始数据简介

(2) 数据预处理

①数据清洗

由于所获得原始诊断数据并非都是前列腺疾病数据, 因此使用2016版Excel对患者诊断数据进行筛选, 得到诊断结果为前列腺癌和前列腺增生的数据。然后进行数据转换, 原始检查数据中的超声检查结果以文本形式给出, 并不适合用于建立模型, 因此将其中前列腺的左右径、前后径及上下径数值提取出来, 使之转化为可用于建模的数值型数据。

②数据集成

首先进行值合并, 由于患者在一天内会做多个指标的检查, 在表中以多条记录的方式进行存储, 这样会浪费大量存储空间, 并且不够直观, 不利于后续建模。因此, 将同一个患者在同一天做的多项检查的多项记录合并成一条记录, 新生成的纪录同时包含多项检查的结果, 其中未做的检查设置为空。然后进行表合并, 根据PATIENT_ID(患者的标识)、RESULTS_RPT_DATE_TIME(实验室检查时间)、REPORT_DATE_TIME (超声检查时间)、DIAGNOSIS_DATE (诊断时间)将患者的诊断数据表、检查数据表、PSA数据表及血常规数据表合并。

③新增变量

本研究新产生三个指标, 包括游离PSA百分比、前列腺体积、PSA 密度。其中游离PSA百分比=游离PSA/总PSA, 前列腺体积=左右径(cm)×前后径(cm)×上下径(cm)×0.52, PSA密度=总PSA/前列腺体积。

④基于文献研究的疾病-危险因素挖掘

根据已有文献研究, 选取年龄、总PSA、游离PSA、白细胞计数、单核细胞、红细胞比积测定、红细胞计数、红细胞体积分布宽度测定、淋巴细胞、平均红细胞体积、平均红细胞血红蛋白量、平均红细胞血红蛋白浓度、嗜碱性粒细胞、嗜酸性粒细胞、血红蛋白测定、血小板计数、中性粒细胞、游离PSA百分比、前列腺体积、PSA密度这20个变量, 将包含这些变量的数据纳入研究, 将在进行各项检查前有治疗史的数据去除, 其中包括前列腺的手术治疗、放射治疗及药物治疗等。最后得到的患者共808例, 将其分为两组, 一组为前列腺癌组, 有患者317例; 另一组非前列腺癌组即前列腺增生组, 有患者491例。因此, 基于文献研究选取20个可能与前列腺疾病存在相关关系的变量。

4.2 线性相关分析

基于文献研究选取的20个变量, 使用SPSS24.0对各个变量与患病情况做二变量相关分析, 得到结果如表2所示。可以看出, 年龄、总PSA、游离PSA、白细胞计数、红细胞比积测定、红细胞计数、红细胞体积分布宽度测定、淋巴细胞、血红蛋白测定、中性粒细胞、游离PSA百分比、前列腺体积、PSA密度这13个变量的P值小于0.05, 可以认为这些指标与患病情况具有相关关系。因此, 根据线性相关分析共挖掘出13个与患病情况存在相关关系的危险因素。

表2 相关分析结果

4.3 结构方程模型分析

使用结构方程模型对基于线性相关得到的危险因素进一步分析, 挖掘出与疾病相关的危险因素。主要包括4个环节。

(1) 探索性因子分析

在根据线性相关分析挖掘出的13个危险因素基础上, 进一步进行探索性因子分析。在此之前进行KMO检验(Kaiser-Meyer-Olkin Measure of Sampling Adequacy)和巴特利特球形检验(Bartlett Test of Sphericity), 得到KMO值=0.684>0.6, 巴特利特球形检验P=0.000<0.05, 说明这13个因素适合进行因子分析。使用SPSS24.0进行因子分析, 得到结果如表3表4所示。

表3 总方差解释

表4 旋转后的主成分载荷矩阵

表3可以看出, 13个成分中前6个成分的方差累计贡献率已经超过80%, 因此提取这6个主成分。

表4可以看出, 主成分1包括总PSA、游离PSA及PSA密度, 主成分2包括红细胞比积测定、红细胞计数及血红蛋白测定, 主成分3包括白细胞计数、淋巴细胞及中性粒细胞, 主成分4包括年龄和红细胞体积分布宽度测定, 主成分5包括前列腺体积, 主成分6包括游离PSA百分比。

(2) 结构方程模型的构建

根据各主成分对应指标的共同特征, 分别将其命名为红细胞因子、PSA因子、白细胞因子、人口学因子、超声因子和PSA百分比因子。将患病情况命名为患病因子, 作为内因潜变量, 而6个主成分作为外因潜变量, 构建变量体系如表5所示。

表5 变量体系

依据该体系, 使用SmartPLS 3.0软件构建初步模型, 对数据进行验证性因子分析与路径分析, 通过不断调整变量间的路径关系, 构建出最优结构方程模型, 得到最终的结构方程模型图, 如图2所示。图2中外因潜变量到内因潜变量的箭头上数字表示路径系数, 而显变量到潜变量的箭头上数字表示负载系数。

图2 患病情况的结构方程模型

(3) 参数检验

①测量模型的信度与效度检验

测量模型的信度指标如表6所示, 潜变量的CR值与Cronbach's α值均大于0.7, 而AVE值均大于0.5, 说明模型具有很高的信度。负载系数检验结果如表7所示, 所有显变量的负载系数值均处于较高水平, 并且P值均小于0.05, 通过检验, 说明模型具有很高的效度。

表6 测量模型的信度指标

表7 负载系数的Bootstrapping检验

②结构模型的路径系数检验

路径系数检验及共线性统计结果如表8所示, 可以看出所有潜变量P值均小于0.05, 通过检验; 所有潜变量的方差膨胀因子均大于1小于10, 说明潜变量之间不存在多重共线性。模型的R2值为0.199, 表示模型可以接受, 外因潜变量对内因潜变量具有一定的解释程度。

表8 路径系数的Bootstrapping检验及共线性统计

(4) 模型拟合效果评价

模型的绝对适配指数SRMR为0.03, 小于0.05; 增值适配指数NFI为0.891, 接近0.9; 此外, Tenenhaus等[26]提出使用GoF指标衡量PLS结构方程模型的整体拟合度, 该指标为共同因子均值和R2均值的几何平均值。本研究通过计算得到GoF值为0.374, 超过最大值0.36的标准[27]。综上, 模型拟合程度很好。因此, 根据结构方程模型分析挖掘出PSA密度、总PSA、游离PSA、游离PSA百分比、红细胞比积测定、红细胞计数、血红蛋白测定、前列腺体积和年龄共9个危险因素。

4.4 疾病-危险因素模型的评测

(1) 疾病诊断模型构建

根据预处理后的变量、基于线性相关的危险因素、基于结构方程的危险因素, 应用R软件中基于CART算法的rpart包分别构建基于文献研究的疾病诊断模型、基于线性相关的疾病诊断模型和基于结构方程的疾病诊断模型。使用R软件随机选取70%的病例数据作为训练集, 30%病例数据作为测试集, 训练集用于建立诊断模型, 而测试集用于对所建立诊断模型的性能进行评价。由于决策树构造复杂, 分支太多, 因此需要对决策树进行剪枝, 防止在建立决策树模型过程中出现过拟合现象, 从而达到最好的拟合。一般使用决策树中的一个重要参数即cp值为标度对决策树进行剪枝, 使用错判率最小时所对应的cp值修剪决策树, 最后得到剪枝后的模型。基于结构方程的前列腺癌诊断模型可视化结果如图3所示, 图中的每一个节点都包括样本单元的占比, 红色部分表示分类的依据。

图3 基于结构方程的前列腺癌诊断模型可视化

(2) 模型评估

将基于文献研究的疾病诊断模型、基于线性相关的疾病诊断模型和基于结构方程的疾病诊断模型分别命名为模型1、模型2和模型3。对三种模型进行定性比较, 如表9所示, 从变量数目、变量关系、变量筛选方法及模型构建算法4个方面进行比较, 可以清楚地看出三种模型的差异。

表9 三种模型的比较

根据模型诊断结果计算得到三种模型的查准率、召回率、正确率、特异度及F值对比结果, 如表10所示。

表10 三种模型的指标结果

与模型1相比, 模型2与模型3的各项指标值均有明显提高。模型3与模型2相比, 查准率与特异度的值几乎没有变化, 但是召回率、正确率及F值均有所提高, 并且模型3各项指标均处于较高水平。其中召回率相当于模型灵敏度, 说明模型3识别前列腺癌的能力要明显优于模型2, 能提高前列腺癌的检出率及减少临床上的漏诊; 正确率和F值表明模型3的整体性能更好。综上, 基于结构方程的诊断模型总体性能更好, 能够更准确地对疾病进行诊断。

4.5 研究结论

通过线性相关分析与结构方程模型分析对疾病危险因素进行挖掘, 在相关文献研究的基础上, 保证有关变量选取的有效性及欲探究变量的创新性, 根据线性相关分析, 探究与疾病存在相关关系的危险因素, 并在线性相关基础上继续进行结构方程模型的验证分析, 从而得到与疾病相关的危险因素。最后, 利用得到的危险因素通过CART算法构建基于结构方程模型的疾病诊断模型, 从模型诊断结果的查准率、召回率、正确率、特异度及F值等指标进行综合评价, 并与基于文献研究及基于线性相关的模型预测结果的各项指标进行对比分析。结果表明, 基于结构方程模型的疾病危险因素诊断模型在灵敏度、正确率及总体性能方面都有所提高, 因此, 利用结构方程模型进行疾病危险因素的挖掘, 有助于提高对疾病的识别能力, 能更准确地对疾病进行诊断。

5 结 语

本文提出基于结构方程模型的疾病-危险因素模型, 并以前列腺癌为例, 使用结构方程模型对与前列腺癌相关的危险因素进行挖掘, 利用疾病诊断模型进行评价。研究结果表明利用疾病-危险因素模型进行疾病诊断, 可以有效提高疾病诊断率, 能更高效地诊断疾病, 减少医疗成本及因不必要的活检给患者带来的痛苦和可能出现的并发症。但是本文也存在局限性, 研究的样本量有限, 并且未能对模型进行外部验证, 对临床上其他人是否适用需进一步证实。

作者贡献声明

牟冬梅: 提出论文选题和研究思路, 撰写及修改论文;

法慧: 文献调研, 数据处理, 进行实验, 论文撰写及修改;

王萍: 提出论文框架及研究路线;

孙晶: 提供本研究所需医学知识。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: fahui666@qq.com。

[1] 法慧. pca.xls. 前列腺癌数据集.

[2] 法慧. code.R. 模型程序代码.

参考文献

[1] 罗旭, 刘友江. 医疗大数据研究现状及其临床应用[J]. 医学信息学杂志, 2015, 36(5): 10-14.
介绍医疗大数据的内涵及其对医学研究的影响,指出医疗领域大数据研究的必要性,总结现阶段医疗大数据的研究现状,提出医疗大数据研究中的若干问题。分析医疗大数据如何应用于临床医学,包括临床诊断和临床药效分析等方面。
DOI:10.3969/j.issn.1673-6036.2015.05.002      Magsci     URL     [本文引用:1]
(Luo Xu, Liu Youjiang.Medical Big Data Research Status and Its Clinical Application[J]. Journal of Medical Informatics, 2015, 36(5): 10-14.)
[2] 马锡坤, 杨国斌, 于京杰. 国内电子病历发展与应用现状分析[J]. 计算机应用与软件, 2015, 32(1): 10-12.
分析国内电子病历发展与应用现状。从国内电子病历发展历程、电子病历框架组成、主要功能及目前国内应用水平着手分析,并采用电子病历与传统纸质病历相比较的研究方法。国家推动促进了电子病历的快速发展。但国内电子病历应用水平不高,原因是缺少支持临床决策的临床数据仓库。电子病历具有许多纸张病历不具备的优越性,但还存在着法律、安全、标准等问题。电子病历是医院信息系统的核心,需要加强电子病历的集成和管理,提高电子病历质量。并且建立相应的法律法规和有效的认证检查机制,切实体现电子病历的合法性。
DOI:10.3969/j.issn.1000-386x.2015.01.003      URL     [本文引用:1]
(Ma Xikun, Yang Guobin, Yu Jingjie.Analysing the Development and Application Status of Electronic Medical Records in China[J]. Computer Applications & Software, 2015, 32(1): 10-12.)
[3] 张振, 周毅, 杜守洪, . 医疗大数据及其面临的机遇与挑战[J]. 医学信息学杂志, 2014, 35(6): 2-8.
介绍大数据的概念和医疗大数据的来源、特点,综述医疗大数据在智慧医疗、医药研究、商业智能方面所面临的机遇,分析其在技术应用及具体实施中遇到的挑战,在此基础上进行思考并提出建议。
DOI:10.3969/j.issn.1673-6036.2014.06.001      Magsci     URL     [本文引用:1]
(Zhang Zhen, Zhou Yi, Du Shouhong, et al.Medical Big Data and the Facing Opportunities and Challenges[J]. Journal of Medical Informatics, 2014, 35(6): 2-8.)
[4] 马费成. 推进大数据、人工智能等信息技术与人文社会科学研究深度融合[N]. 光明日报, 2018-07-29(6).
[本文引用:1]
(Ma Feicheng. Promoting the Deep Integration of Information Technology and Humanities and Social Science Research, such as Big Data and Artificial Intelligence[N]. Guangming Daily, 2018-07-29(6).)
[5] 麦忠海. 结构方程模型之应用问题研究——基于2014年广东省国民幸福感影响因素数据[D]. 广州: 广东财经大学, 2015.
[本文引用:1]
(Mai Zhonghai.Study on Application Problems of Structural Equation Model —— Based on the Data of the National Happiness Influencing Factors of Guangdong Province in 2014[D]. Guangzhou: Guangdong University of Finance & Economics, 2015.)
[6] 辛士波, 陈妍, 张宸. 结构方程模型理论的应用研究成果综述[J]. 工业技术经济, 2014(5): 61-71.
作为一种有效的多变量分析方法,结构方程模型已在多个领域中得到广泛应用。为了更好地了解国内外学者在该领域的研究应用现状,本文筛选了1990~2013年间基于结构方程模型的应用研究文献,对其应用领域和研究内容进行归纳整理,并对国内外结构方程模型的应用研究发展、现状与局限性进行评述。
DOI:10.3969/j.issn.1004-910X.2014.05.007      URL     [本文引用:2]
(Xin Shibo, Chen Yan, Zhang Chen.Review on Research and Application of Structural Equation Model[J]. Journal of Industrial Technological Economics, 2014(5): 61-71.)
[7] 陈星光. 基于结构方程模型的软实力测度与评估[J]. 统计与决策, 2014(6): 19-21.
文章针对软实力评估体系建设实践中的定量测量问题,运用结构方程模型这一在社会学、心理学、经济学和管理学等领域中得到广泛应用的线性统计建模技术,提出了一种基于结构方程模型的软实力测度方法,在此基础上,给出了软实力评估体系建设的一般处理流程。
URL     [本文引用:1]
(Chen Xingguang.Soft Power Measurement and Evaluation Based on Structural Equation Modeling[J]. Statistics and Decision, 2014(6): 19-21.)
[8] 蔡瑞初, 陈薇, 张坤, . 基于非时序观察数据的因果关系发现综述[J]. 计算机学报, 2017, 40(6): 1470-1490.
[本文引用:1]
(Cai Ruichu, Chen Wei, Zhang Kun, et al.A Survey on Non-Temporal Series Observational Data Based Causal Discovery[J]. Journal of Computers, 2017, 40(6): 1470-1490.)
[9] 金洲. 基于约束学习的观测数据因果关系发现研究[D]. 合肥:中国科学技术大学, 2014.
[本文引用:1]
(Jin Zhou.Study of Causal Relationship Discovery Using Constrain-based Method from Observational Data[D]. Hefei: University of Science and Technology of China, 2014.)
[10] Cai R, Zhang Z, Hao Z.Causal Gene Identification Using Combinatorial V-Structure Search[J]. Neural Networks, 2013, 43: 63-71.
78 Robust causal gene identification method using combinatorial V-Structure search. 78 The combinatorial V-Structure search problem is NP-hard. 78 Propose two significance measures to deal with the conflicts among the V-Structures. 78 Experiments on prostate cancer data reveal interesting causal genes.
DOI:10.1016/j.neunet.2013.01.025      PMID:23500501      URL     [本文引用:1]
[11] 张润梅. 基于贝叶斯网络的复杂系统因果关系研究[D]. 合肥: 合肥工业大学, 2015.
[本文引用:1]
(Zhang Runmei.Research on Causality in Complex System Based on Bayesian Network[D]. Hefei: Hefei University of Technology, 2015.)
[12] Chen W, Hao Z, Cai R, et al.Multiple-Cause Discovery Combined with Structure Learning for High-Dimensional Discrete Data and Application to Stock Prediction[J]. Soft Computing, 2016, 20(11): 4575-4588.
Abstract Causal discovery in observational data is crucial to a variety of scientific and business research. Although many causal discovery algorithms have been proposed in recent decades, none of them is effective enough in dealing with high-dimensional discrete data. The main challenge is the complex interactions among large volume of variables, leading to numerous spurious causalities found. In this work, we propose a novel multiple-cause discovery method combined with structure learning (McDSL) to eliminate the spurious causalities. The method is carried out in two phases. In the first phase, conditional independence test is used to distinguish direct causal candidates from the indirect ones. In the second phase, causal direction of multi-cause structure is carefully determined with a hybrid causal discovery method. Validation experiments on synthetic data showed that McDSL is reliable in discovering multi-cause structures and eliminating indirect causes. We then applied this algorithm in discovering multiple causes of stock return based on 13-year historical financial data of the Shanghai Stock Exchanges of China, and established a stock prediction model. Experimental results showed that the McDSL discovered causes revealed changes of key risk factors of the stock market over 13 years, which indicated investors should change their investment strategy over time. Moreover, the causes discovered by McDSL have better performance in predicting stock return than that of other common filter-based feature selection algorithms.
DOI:10.1007/s00500-015-1764-8      URL     [本文引用:1]
[13] 郝志峰, 谢蔚涛, 蔡瑞初, . 基于因果强度的时序因果关系发现算法[J]. 计算机工程与设计, 2017, 38(1): 132-137.
为准确推断时间序列间的因果网络,针对传统因果强度衡量方法的不足,提出一种基于信息熵的因果强度衡量标准(归一化因果熵)。为改进传统方法量纲不统一且冗余较多的缺点,通过归一化处理使量纲不同的节点间强度具备可比性,通过排除节点间的间接影响大幅减少冗余,更准确地衡量时序节点间的因果强度;在此基础上,设计时间序列的因果推断算法,以归一化因果熵衡量节点间因果关系的强弱,筛选强关系形成完整因果图。实验结果表明,该算法相比起传统算法更准确有效。
DOI:10.16208/j.issn1000-7024.2017.01.025      URL     [本文引用:1]
(Hao Zhifeng, Xie Weitao, Cai Ruichu, et al.Casual Inference on Time Series Using Causal Strength[J]. Computer Engineering and Design, 2017, 38(1): 132-137.)
[14] 袁畅. 基于时序的社交网络因果关系发现[D]. 广州:广东工业大学, 2016.
[本文引用:1]
(Yuan Chang.A Minimal Description Length Approach for Social Causal Discovery[D]. Guangzhou: Guangdong University of Technology, 2016.)
[15] Detilleux J, Theron L, Beduin J M, et al.A Structural Equation Model to Evaluate Direct and Indirect Factors Associated with a Latent Measure of Mastitis in Belgian Dairy Herds[J]. Preventive Veterinary Medicine, 2012, 107(3-4): 170-179.
In dairy cattle, many farming practices have been associated with occurrence of mastitis but it is often difficult to disentangle the causal threads. Structural equation models may reduce the complexity of such situations. Here, we applied the method to examine the links between mastitis (subclinical and clinical) and risk factors such as herd demographics, housing conditions, feeding procedures, milking practices, and strategies of mastitis prevention and treatment in 345 dairy herds from the Walloon region of Belgium. During the period January 2006 to October 2007, up to 110 different herd management variables were recorded by two surveyors using a questionnaire for the farm managers and during a farm visit. Monthly somatic cell counts of all lactating cows were collected by the local dairy herd improvement association. Structural equation models were created to obtain a latent measure of mastitis and to reduce the complexity of the relationships between farming practices, between indicators of herd mastitis and between both. Robust maximum likelihood estimates were obtained for the effects of the herd management variables on the latent measure of herd mastitis. Variables associated directly (p<0.05) with the latent measure of herd mastitis were the addition of urea in the rations; the practices of machine stripping, of pre-and post-milking teat disinfection; the presence of cows with hyperkeratotic teats, of cubicles for housing and of dirty liners before milking; the treatment of subclinical cases of mastitis; and the age of the herd (latent variable for average age and parity of cows, and percentage of heifers in the herd). Treatment of subclinical mastitis was also an intermediate in the association between herd mastitis and post-milking teat disinfection. The study illustrates how structural equation model provides information regarding the linear relationships between risk factors and a latent measure of mastitis, distinguishes between direct relationships and relationships mediated through intermediate risk factors, allows the construction of latent variables and tests the directional hypotheses proposed in the model.
DOI:10.1016/j.prevetmed.2012.06.005      PMID:22770804      URL     [本文引用:1]
[16] Emmann C H, Arens L, Theuvsen L.Individual Acceptance of the Biogas Innovation: A Structural Equation Model[J]. Energy Policy, 2013, 62: 372-378.
61Strong expansion of biogas production based on renewable resources in Germany since 2004.61Low acceptance of biogas production in some regions.61Identification of influencing factors that determine the individual acceptance of the biogas innovation among German farmers.61Compared to existing studies, personal innovativeness was taken into account in the causal model.61Results are important for the further expansion of biogas production in Germany as well as in other countries.
DOI:10.1016/j.enpol.2013.07.083      URL     [本文引用:1]
[17] Kim S H, Cha J M, Singh A J, et al.A Longitudinal Investigation to Test the Validity of the American Customer Satisfaction Model in the U.S. Hotel Industry[J]. International Journal of Hospitality Management, 2013, 35: 193-202.
This study was designed to test the validity of the American Customer Satisfaction Index (ACSI) model specifically for the hotel industry. The main objective of this study was to determine consistency of the ACSI hotel model over three periods: 1994, 2001, and 2009. The model was tested using the Structural Equation Modeling (SEM) technique using a two stage data analysis procedure. The findings from multi-group structural equation modeling showed that the model fit of ACSI lodging is consistent, regardless of economic conditions, demonstrating the validity of that model. Several plausible interpretations are presented in explaining meaningful patterns of path coefficients, for each of the study test periods. Furthermore, as the model tests validate the model fit of the hotel ACSI, academicians studying customer satisfaction may use the theoretical underpinnings and conceptual foundation of the model as a basis for their research. (C) 2013 Elsevier Ltd. All rights reserved.
DOI:10.1016/j.ijhm.2013.05.004      URL     [本文引用:1]
[18] 钟茂华, 田向亮, 刘畅, . 基于结构方程模型的地铁乘客安全行为影响因素分析[J]. 中国安全生产科学技术, 2018, 14(1): 5-11.
[本文引用:1]
(Zhong Maohua, Tian Xiangliang, Liu Chang, et al.Analysis on Factors of Safety Behavior for Metro Passengers Based on Structural Equation Model[J]. Journal of Safety Science and Technology, 2018, 14(1): 5-11.)
[19] 潘丹, 罗帆. 基于结构方程模型的建筑施工项目安全绩效评价[J]. 安全与环境学报, 2018, 18(2): 602-609.
为增强建筑施工项目安全绩效评价的客观性和有效性,综合采用扎根理论、熵权法及结构方程模型(SEM模型)构建建筑施工安全绩效评价指标体系,并建立SEM评价模型.将扎根理论运用于指标体系的初步构建、SMART原则和熵权法用于指标体系的筛选、SEM模型用于指标体系的验证,确定了5个维度21个建筑施工项目安全绩效评价指标;运用SEM模型分析指标和构面之间的相互影响和叠加效应,结果表明,二级指标对总目标的影响程度由大到小依次为安全业绩、管理因素、人员因素、机械设备因素、环境因素.将模型应用于6个项目的安全绩效评价,评价结果与管理者实际评价结果误差均在5%以内,且与第三方的评价结果一致.
DOI:10.13637/j.issn.1009-6094.2018.02.035      URL     [本文引用:1]
(Pan Dan, Luo Fan.Safety Performance Evaluation of the Construction Projects Based on the Structural Equation Model[J]. Journal of Safety and Environment, 2018, 18(2): 602-609.)
[20] 吴永定, 廖剑锋, 黄美娟, . 应用结构方程模型探讨社区卫生服务满意度的影响因素[J]. 中国卫生统计, 2018, 35(2): 219-221.
目的应用结构方程模型探讨社区卫生服务满意度的影响因素,为改进质量、提高居民满意度、增加社区卫生服务有效利用提供依据。方法通过现场问卷调查的方式,获得居民对社区卫生服务满意情况的数据,应用探索性因子分析和结构方程模型的拟合修正,得出影响居民满意度的各因素及其之间的关系。结果满意度量表的Cronbachd系数为0.972,说明数据具有很好的内部稳定性。效度检验结果显示方便可及、环境质量、服务质量、业务质量以及居民满意度维度的KMO值和Bartlett球形检验结果均符合因子分析要求。结构方程模型修正后所有适配度指标均能满足适配度要求,模型拟合良好。业务质量对于居民满意度的总效应最大,环境质量对于居民满意度的总效应最小。居民满意度对于居民忠诚度(居民对社区卫生服务的信赖程度)的总效应最大,环境质量对于居民忠诚度的总效应最小。结论提高社区卫生服务环境质量、服务质量,特别是业务质量,都能相应地提升居民满意度,进而增加居民的忠诚度,使得社区卫生服务得到更有效的利用。
URL     [本文引用:1]
(Wu Yongding, Liao Jianfeng, Huang Meijuan, et al.Applying Structural Equation Modeling to Explore the Influencing Factors of Community Health Service Satisfaction[J]. Chinese Journal of Health Statistics, 2018, 35(2): 219-221.)
[21] 李柏桐, 郭汉丁, 伍红民. 基于PLS-SEM模型的我国节能服务产业竞争力形成机理研究[J]. 科技管理研究, 2018(14): 105-110.
分析我国节能服务产业特征,结合国内外学者对产业竞争力的研究,提出一种区分竞争力原因和结果的节能服务产业竞争力形成机理分析框架,在此基础上探究我国节能服务产业竞争力影响因素指标与度量指标,构建我国节能服务产业竞争力指标体系,基于PLS-SEM模型研究节能服务产业竞争力形成机理并验证模型的可行性。研究结果表明,生产要素投入与产业组织结构是产业竞争力的直接影响因素,产业环境、辅助产业、市场需求三方面因素对生产要素投入产生影响,进而影响节能服务产业竞争力。
URL     [本文引用:1]
(Li Botong, Guo Handing, Wu Hongmin.Research on Competitiveness Formation Mechanism of China's Energy-saving Service Industry Based on PLS-SEM Model[J]. Science and Technology Management Research, 2018(14): 105-110.)
[22] 赵书亮. 2型糖尿病合并抑郁的影响因素研究[D]. 北京:北京师范大学, 2012.
[本文引用:1]
(Zhao Shuliang.The Study on the Related Factors of Coexisting Depression in Patients with Diabetes Mellitus[D]. Beijing: Beijing Normal University, 2012.)
[23] 李欣欣, 董丽敏, 刘晓英, . 基于结构方程模型探讨哮喘患者治疗依从性影响因素[J]. 中华疾病控制杂志, 2017, 21(2): 187-191.
目的 探讨结构方程模型在哮喘患者治疗依从性影响因素分析中的应用,为哮喘患者治疗依从性的改善提供依据.方法 应用哮喘患者报告临床结局量表,对太原市366位哮喘患者进行调查.采用结构方程模型分析调查结果.结果 结构方程模型分析:生理领域中,生理机能的改善,使治疗依从性提高.治疗满意度又是生理机能与治疗依从性的中间调节作用.心理领域中,恐怖、抑郁等不良心理状态的缓解,可引起患者治疗依从性提高.社会领域中,参与社会活动越多,获得社会支持越丰富,患者治疗依从性就越高.结论 哮喘患者的生理机能、心理状况、社会活动、社会支持、治疗满意度均与治疗依从性有密切关系.关注哮喘患者,改善其生理机能,给予心理干预,创造活动交流机会,增加人文关怀,有助于治疗依从性的提高.
DOI:10.16462/j.cnki.zhjbkz.2017.02.020      URL     [本文引用:1]
(Li Xinxin, Dong Limin, Liu Xiaoying, et al.To Explore the Influencing Factors of Treatment Compliance of Asthma Patients Based on Structural Equation Modeling[J]. Chinese Journal of Disease Control & Prevention, 2017, 21(2): 187-191.)
[24] 江海冰, 李金梅, 胡真真, . 基于PLS-SEM模型的老年人慢性病影响因素分析[J]. 实用预防医学, 2018(2): 132-136.
[本文引用:1]
(Jiang Haibing, Li Jinmei, Hu Zhenzhen, et al.Factors Influencing Chronic Diseases of the Elderly Based on PLS-SEM Model[J]. Practical Preventive Medicine, 2018(2): 132-136.)
[25] 中国医学科学院. 国家人口与健康科学数据共享服务平台[EB/OL]. [2018-06-01] .http://www.ncmi.cn/
[本文引用:1]
(Chinese Academy of Medical Sciences. National Population and Health Science Data Sharing Service Platform[EB/OL]. [2018-06-01] http://www.ncmi.cn/
[26] Tenenhaus M, Amato S, Esposito Vinzi V.A Global Goodness-of-Fit Index for PLS Structural Equation Modelling[C]// Proceedings of the 42nd SIS Scientific Meeting. 2004: 739-742.
[本文引用:1]
[27] 张爱华, 赵国龙. 线下熟悉度在社交网络信任中的调节作用研究[J]. 北京邮电大学学报:社会科学版, 2015, 17(1): 18-24.
Online trust is a key factor contributing to online purchasing behavior. Referring to literature of online trust, several factors of social media trust are explored and the adjusting role of offline familiarity on their relationship is verified by using structural equation model. The results show that independent variables such as reputation, the strength of social interaction, information quality, reciprocity, satisfaction and shared values have a positive effect on social network trust except the variables of perceived similarity, and information quality is the most important factor. Offline familiarity significantly adjusts the relationships between information quality, reciprocity, reputation, shared values and social media trust, which is important for companies to develop an effective social network marketing strategy.
URL     [本文引用:1]
(Zhang Aihua, Zhao Guolong.Adjusting Role of Offline Familiarity in Social Network Trust[J]. Journal of Beijing University of Posts and Telecommunications: Social Science Edition, 2015, 17(1): 18-24.)
资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
结构方程模型
疾病危险因素
数据挖掘
疾病诊断

Structural Equation Model...
Disease Risk Factors
Data Mining
Disease Diagnosis

作者
牟冬梅
法慧
王萍
孙晶

Mu Dongmei
Fa Hui
Wang Ping
Sun Jing
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn