%A 牟冬梅, 王萍, 赵丹宁 %T 高维电子病历的数据降维策略与实证研究* %0 Journal Article %D 2018 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2017.1053 %P 88-98 %V 2 %N 1 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4465.shtml} %8 2018-01-25 %X

目的】以高维的结构化电子病历数据为研究对象, 探究数据降维的策略, 为电子病历知识发现提供参考。【方法】通过文献调研进行初步约简, 再分别利用主成分分析法提取特征根大于1的因子、提取累计贡献率大于85%的因子, 利用Logistic回归方法提取有显著差异性的因子进行降维; 根据实证研究定性定量评价三种方法提取的属性结果。【结果】三种降维方法分别提取8个、17个和14个属性, 经过定性和定量评价发现, 利用主成分分析方法提取特征根大于1的因子的降维效果相对较好。【局限】数据样本量有限, 未能搜集一定时间跨度的数据进行深入分析。【结论】本研究制定的数据降维策略有效, 可以在保留目标数据原始特征的同时, 对高维空间数据进行识别、定位、分析, 用较少的属性特征代替整体数据集, 解决电子病历数据维度过高带来的数据挖掘灾难, 提高数据挖掘的效率和分析结果的准确性。