Please wait a minute...
Advanced Search
数据分析与知识发现  2022, Vol. 6 Issue (2/3): 222-232
  专辑 本期目录 | 过刊浏览 | 高级检索 |
中山大学信息管理学院 广州 510006
Clustering and Characterizing Depression Patients Based on Online Medical Records
Nie Hui(),Wu Xiaoyan,Lin Yun
School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China
全文: PDF (2486 KB)   HTML ( 15
输出: BibTeX | EndNote (RIS)      

【目的】 通过挖掘抑郁症患者的在线问诊记录来深入了解该病患群体。【方法】 采集“好大夫在线”的抑郁症问诊记录,利用词向量构建病患模型,通过K-means算法实现病症群组划分,运用t-SNE、热图、词云等技术可视化各群组的结构及相互关系,分析其情绪心理、社交和行为上的差异,并通过LDA主题建模法凝练各群组诊疗需求。【结果】 研究汇聚了6个抑郁症群组,不同群组在情绪心理、社交关系、行为表现上各具特点。同时提炼出抑郁症病患的三种诊疗需求模式:迫切希望了解是否应线下就医、多方位咨询以及询问药物治疗。【局限】 对群组进行特征差异分析时,每个维度下的关键词选择基于词性分析和人工梳理,存在一定偏差。【结论】 对用户在线问诊记录的挖掘是了解抑郁症患者的有效途径。研究采用的策略与方法可推广至其他疾病领域,为在线医疗平台建设提供全方位支持。

E-mail Alert
关键词 在线医疗抑郁症聚类可视化    

[Objective] This study examines the online consultation records of depression patients, aiming to thoroughly understand their situation. [Methods] First, we retrieved the depression consultation records from, an online medical platform. Then, we modeled the patients with word vectors, and identified patient groups with the K-means clustering algorithm. Third, we used visualization techniques, such as t-SNE, heat map, and word-cloud, to analyze the group structure and relationship among them. Finally,we identified the emotional-psychological, social, and behavioral differences of different groups and decided their treatment needs with the LDA topic model. [Results] We found six depression groups with different emotional-psychology, social relationship, and behavioral performance. The depression patients’ needs include: seeking suggestion on offline medical treatments, multi-faceted consultation, and inquiry about medication. [Limitations] We analyzed the differences in group characteristics by selecting keywords in each dimension based on part-of-speech and manual analysis. [Conclusions] The proposed method could help us understand patients and their needs, and then construct better online medical platforms.

Key wordsOnline Medical Care    Depression    Clustering    Visualization
收稿日期: 2021-08-23      出版日期: 2022-01-07
ZTFLH:  G353  
通讯作者: 聂卉,ORCID:0000-0001-8567-3084     E-mail:
聂卉, 吴晓燕, 林芸. 基于在线问诊记录的抑郁症病患群组划分与特征分析*[J]. 数据分析与知识发现, 2022, 6(2/3): 222-232.
Nie Hui, Wu Xiaoyan, Lin Yun. Clustering and Characterizing Depression Patients Based on Online Medical Records. Data Analysis and Knowledge Discovery, 2022, 6(2/3): 222-232.
链接本文:      或
Fig.1  研究流程图
Fig.2  问诊记录页面截图
Fig.3  LDA图模型
Fig.4  病患聚类评测指标结果
病患群组 个案数占比 群组主题词云
C1 10.74% 倾向 轻生 悲观 提不起 念头 自残 失去 社交 不感兴趣 暴躁 压抑 哭泣 低落 胡思乱想 减退 烦躁不安 信心 易怒 自卑 脾气 自杀 没意思 绝望 心烦 高兴 厌世 恐惧 不安 下降 动力
C2 17.58% 感觉 入睡 有时 失眠 睡不着 症状 睡眠 气短 头疼 难受 乏力 心跳 出汗 容易 紧张 出现 身体 害怕 小时 头痛 胸闷 有点 没有 孩子 晚上 有时候 脑袋 睡着 头晕 觉得
C3 19.27% 不想 觉得 感觉 别人 有时候 喜欢 事情 没有 容易 害怕 开心 活着 孩子 每天 心里 有时 难过 讨厌 莫名其妙 想着 愿意 生气 说话 干什么 没意思 情绪 知道 难受 意义 世界
C4 22.10% 孩子 工作 父母 觉得 学校 老公 学习 妈妈 家人 母亲 情绪 生活 没有 上学 父亲 同学 知道 别人 不想 愿意 老师 问题 喜欢 手机 宝宝 分手 家庭 丈夫 离婚 患者
C5 12.09% 服用 mg 一片 毫克 舍曲林 奥氮 效果 服药 氮平 停药 一粒 黛力 半片 盐酸 帕罗西汀 西酞普兰 草酸 副作用 文拉法 阿立 一天 丙戊酸 碳酸锂 复发 药物 劳拉西泮 克隆 来士普 百忧解 胶囊
C6 18.22% 检查 治疗 医生 孩子 医院 药物 是否 患者 咨询 症状 复发 大夫 住院 测试 吃药 服药 病情 一下 发病 主任 需要 停药 问题 服用 手术 诊断 怀孕 用药 月份 就诊
Table 1  基于K-means聚类生成的抑郁症病患群组
Fig.5  抑郁症病患群组分布图
Fig.6  抑郁症病患群组的共词网络
特征维度 关键词个数 关键词示例
情绪与心理 32 害怕、焦虑、紧张、头痛、恐惧
家庭社会角色与关系 26 孩子、父母、老公、学校、母亲
行为表现 32 工作、失眠、学习、自杀、自残
Table 2  病患特征维度与关键词
Fig.7  病患群组的特征差异分析(情绪与心理)
Fig.8  病患群组的特征差异分析(人际关系)
Fig.9  病患群组的特征差异分析(行为表现)
就诊诉求 主题 主题词 主题解释
药物相关 T1 是否、吃药、需要、抑郁症、严重 吃药
T2 咨询、药物、药、副作用、用药 药物副作用
T3 吃、药、好、改善、效果 药物效果
就诊相关 T4 门诊、就诊、是否、需要、预约 是否门诊就诊
T5 医院、看、检查、就诊、科 医院检查科室
T6 抑郁症、是否、是不是、确诊、医生 确诊是否抑郁症
T7 想、知道、情况、这种、问题 知道情况
治疗相关 T8 抑郁、情绪、现在、是不是、心理咨询 缓解情绪
T9 希望、医生、帮助、治疗、建议 治疗建议
T10 控制、病情、调整、心理、疏导 控制病情
其他 T11 医生、问题、希望、帮、建议 其他
Table 3  基于LDA的病患诊疗需求模型
Fig.10  病患群组的需求分布差异
相关系数 C1 C2 C3 C4 C5 C6
C1 1.000
C2 0.555 1.000
C3 .900** 0.527 1.000
C4 .827** .791** .818** 1.000
C5 -0.109 0.500 -0.118 0.082 1.000
C6 0.527 .836** 0.509 .736** 0.555 1.000
Table 4  Spearman相关性检验结果
[1] 孟秋晴, 熊回香. 基于在线问诊文本信息的医生推荐研究[J]. 情报科学, 2021, 39(6):152-160.
[1] ( Meng Qiuqing, Xiong Huixiang. Doctor Recommendation Based on Online Consultation Text Information[J]. Information Science, 2021, 39(6):152-160.)
[2] WHO. Depression[EB/OL].(2020-01-30)[2021-08-06].
[3] Shen G Y, Jia J, Nie L Q, et al. Depression Detection via Harvesting Social Media: A Multimodal Dictionary Learning Solution[C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. 2017: 3838-3844.
[4] Yin Z J, Sulieman L M, Malin B A. A Systematic Literature Review of Machine Learning in Online Personal Health Data[J]. Journal of the American Medical Informatics Association, 2019, 26(6):561-576.
doi: 10.1093/jamia/ocz009
[5] 席海涛, 聂文博, 李闺臣, 等. 在线健康社区用户交互的研究现状与进展[J]. 情报科学, 2021, 39(4):186-193.
[5] ( Xi Haitao, Nie Wenbo, Li Guichen, et al. Research Status and Progress of Online Health Community User Interaction[J]. Information Science, 2021, 39(4):186-193.)
[6] Beykikhoshk A, Arandjelović O, Phung D, et al. Using Twitter to Learn about the Autism Community[J]. Social Network Analysis and Mining, 2015, 5(1):1-17.
doi: 10.1007/s13278-014-0242-0
[7] Hswen Y, Gopaluni A, Brownstein J S, et al. Using Twitter to Detect Psychological Characteristics of Self-Identified Persons with Autism Spectrum Disorder: A Feasibility Study[J]. JMIR MHealth and UHealth, 2019, 7(2):e12264.
doi: 10.2196/12264
[8] van der Eijk M, Faber M J, Aarts J W M, et al. Using Online Health Communities to Deliver Patient-Centered Care to People with Chronic Conditions[J]. Journal of Medical Internet Research, 2013, 15(6):e115.
doi: 10.2196/jmir.2476
[9] Young C. Community Management that Works: How to Build and Sustain a Thriving Online Health Community[J]. Journal of Medical Internet Research, 2013, 15(6):e119.
doi: 10.2196/jmir.2501
[10] Park A, Conway M, Chen A T. Examining Thematic Similarity, Difference, and Membership in Three Online Mental Health Communities from Reddit: A Text Mining and Visualization Approach[J]. Computers in Human Behavior, 2018, 78:98-112.
doi: 10.1016/j.chb.2017.09.001
[11] Bi Q Q, Shen L N, Evans R, et al. Determining the Topic Evolution and Sentiment Polarity for Albinism in a Chinese Online Health Community: Machine Learning and Social Network Analysis[J]. JMIR Medical Informatics, 2020, 8(5):e17813.
doi: 10.2196/17813
[12] 盛姝, 黄奇, 郑姝雅, 等. 在线健康社区中用户画像及主题特征分布下信息需求研究——以医享网结直肠癌圈数据为例[J]. 情报学报, 2021, 40(3):308-320.
[12] ( Sheng Shu, Huang Qi, Zheng Shuya, et al. Study of User Information Requirements in an Online Health Community Based on the Distribution of User Profile and Theme Features: Taking Colorectal Cancer Data from YiXiang as an Example[J]. Journal of the China Society for Scientific and Technical Information, 2021, 40(3):308-320.)
[13] Huh J, Kwon B C, Kim S H, et al. Personas in Online Health Communities[J]. Journal of Biomedical Informatics, 2016, 63:212-225.
doi: 10.1016/j.jbi.2016.08.019
[14] Bui N, Yen J, Honavar V. Temporal Causality Analysis of Sentiment Change in a Cancer Survivor Network[J]. IEEE Transactions on Computational Social Systems, 2016, 3(2):75-87.
doi: 10.1109/TCSS.2016.2591880
[15] Chen A T. Exploring Online Support Spaces: Using Cluster Analysis to Examine Breast Cancer, Diabetes and Fibromyalgia Support Groups[J]. Patient Education and Counseling, 2012, 87(2):250-257.
doi: 10.1016/j.pec.2011.08.017
[16] Feldhege J, Moessner M, Bauer S. Who Says What? Content and Participation Characteristics in an Online Depression Community[J]. Journal of Affective Disorders, 2020, 263:521-527.
doi: 10.1016/j.jad.2019.11.007
[17] Liu Y, Yin Z J. Understanding Weight Loss via Online Discussions: Content Analysis of Reddit Posts Using Topic Modeling and Word Clustering Techniques[J]. Journal of Medical Internet Research, 2020, 22(6):e13745.
doi: 10.2196/13745
[18] 吴江, 刘冠君, 胡仙. 在线医疗健康研究的系统综述: 研究热点、主题演化和研究方法[J]. 数据分析与知识发现, 2019, 3(4):2-12.
[18] ( Wu Jiang, Liu Guanjun, Hu Xian. An Overview of Online Medical and Health Research: Hot Topics, Theme Evolution and Research Content[J]. Data Analysis and Knowledge Discovery, 2019, 3(4):2-12.)
[19] 好大夫在线简介[EB/OL]. [2021-07-09].
[19] (Introduction of[EB/OL]. [2021-07-09]. )
[20] 李丹亚, 胡铁军, 李军莲. MeSH增补概念的术语映射分析[J]. 医学信息学杂志, 2012, 33(4):45-49.
[20] ( Li Danya, Hu Tiejun, Li Junlian. Analysis on Terminology Mapping in MeSH Supplementary Concept[J]. Journal of Medical Informatics, 2012, 33(4):45-49.)
[21] Mikolov T, Chen K C, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint,arXiv:1301.3781.
[22] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and Their Compositionality[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. 2013, 2:3111-3119.
[23] Salton G, Buckley C. Term-Weighting Approaches in Automatic Text Retrieval[J]. Information Processing & Management, 1988, 24(5):513-523.
doi: 10.1016/0306-4573(88)90021-0
[24] Hinton G E. Visualizing High-Dimensional Data Using t-SNE[J]. Vigiliae Christianae, 2008, 9(2):2579-2605.
[25] 赵华茗, 余丽, 周强. 基于均值漂移算法的文本聚类数目优化研究[J]. 数据分析与知识发现, 2019, 3(9):27-35.
[25] ( Zhao Huaming, Yu Li, Zhou Qiang. Determining Best Text Clustering Number with Mean Shift Algorithm[J]. Data Analysis and Knowledge Discovery, 2019, 3(9):27-35.)
[26] Bastian M, Heymann S, Jacomy M. Gephi: An Open Source Software for Exploring and Manipulating Networks[C]// Proceedings of the 3rd International Conference on Weblogs and Social Media. AAAI Press, 2009.
[27] Blei D M, Ng A Y, Jordan M J. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3:993-1022.
[1] 钱旦敏, 曾婷婷, 常侍艺. 突发公共卫生事件下基于在线健康社区用户画像的用户角色研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 93-104.
[2] 汪雪锋, 任惠超, 刘玉琴. 融合聚类信息的技术主题图可视化方法研究*[J]. 数据分析与知识发现, 2022, 6(1): 91-100.
[3] 王若琳, 牛振东, 蔺奇卡, 朱一凡, 邱萍, 陆浩, 刘东磊. 基于异质信息嵌入与RNN聚类参数预测的作者姓名消歧方法*[J]. 数据分析与知识发现, 2021, 5(8): 13-24.
[4] 王晰巍,贾若男,韦雅楠,张柳. 多维度社交网络舆情用户群体聚类分析方法研究*[J]. 数据分析与知识发现, 2021, 5(6): 25-35.
[5] 卢利农,祝忠明,张旺强,王小春. 基于Lingo3G聚类算法的机构知识库跨库知识整合与知识指纹服务实现[J]. 数据分析与知识发现, 2021, 5(5): 127-132.
[6] 张梦瑶, 朱广丽, 张顺香, 张标. 基于情感分析的微博热点话题用户群体划分模型 *[J]. 数据分析与知识发现, 2021, 5(2): 43-49.
[7] 丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[8] 杨辰, 陈晓虹, 王楚涵, 刘婷婷. 基于用户细粒度属性偏好聚类的推荐策略*[J]. 数据分析与知识发现, 2021, 5(10): 94-102.
[9] 于丰畅,程齐凯,陆伟. 基于几何对象聚类的学术文献图表定位研究[J]. 数据分析与知识发现, 2021, 5(1): 140-149.
[10] 温萍梅,叶志炜,丁文健,刘颖,徐健. 命名实体消歧研究进展综述*[J]. 数据分析与知识发现, 2020, 4(9): 15-25.
[11] 邬金鸣,侯跃芳,崔雷. 基于医学主题词标引规则的词共现聚类分析结果自动判读和表达的研究[J]. 数据分析与知识发现, 2020, 4(9): 133-144.
[12] 席运江, 杜蝶蝶, 廖晓, 仉学红. 基于超网络的企业微博用户聚类研究及特征分析*[J]. 数据分析与知识发现, 2020, 4(8): 107-118.
[13] 杨旭,钱晓东. 基于改进的Vicsek模型的社会网络同步聚类算法*[J]. 数据分析与知识发现, 2020, 4(4): 119-128.
[14] 潘有能,倪秀丽. 基于Labeled-LDA模型的在线医疗专家推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 34-43.
[15] 叶佳鑫,熊回香,蒋武轩. 一种融合患者咨询文本与决策机理的医生推荐算法*[J]. 数据分析与知识发现, 2020, 4(2/3): 153-164.
Full text



版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190