%A 陆泉,朱安琪,张霁月,陈静 %T 中文网络健康社区中的用户信息需求挖掘研究*——以求医网肿瘤板块数据为例 %0 Journal Article %D 2019 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2018.1153 %P 22-32 %V 3 %N 4 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4639.shtml} %8 2019-04-25 %X

【目的】构建适应大数据环境的中文网络健康社区用户信息需求挖掘框架, 以肿瘤科为例分析用户信息需求。【方法】使用潜在语义索引(LSI)模型和MapReduce分布式文本聚类技术对中文网络健康社区——求医网肿瘤板块的全部提问数据(共计24 305条)进行用户信息需求挖掘。【结果】挖掘出用户的5个信息需求类目及其占比: 治疗(43.3%)、病理及病因(34.5%)、检查(12.1%)、术后(7.0%)、预防(3.1%), 各类目下Top20关键词; 发现国内外各需求类目占比差异巨大; 预防信息需求将持续上升; 需求的性别差异显著, 男性最关注治疗信息、女性最关注病理及病因信息; 需求的年龄差异较大, 青年群体占比极高(83.79%)等。【局限】可能存在更好的阈值选择, 更完整医学主题词表; 尚未进行信息需求的多维分析。【结论】本文框架可在大数据环境下挖掘用户信息需求, 并分析需求的变化趋势以及年龄与性别差异。