数据分析与知识发现

Select

“在线医疗健康社区数据分析和用户行为研究”专题序

吴江

数据分析与知识发现. 2019, 3(4): 1-1.

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

Select

在线医疗健康研究的系统综述: 研究热点、主题演化和研究方法

吴江,刘冠君,胡仙

数据分析与知识发现. 2019, 3(4): 2-12. https://doi.org/10.11925/infotech.2096-3467.2018.1063

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】梳理国内外在线医疗健康领域的主题演化、研究热点和研究方法, 为今后该领域的相关探索和研究提供借鉴。【文献范围】以Web of Science核心数据集为来源, 以在线医疗、在线健康作为关键词进行主题检索, 得到1 899篇相关英文文献。【方法】通过文献计量、聚类分析、纵向映射分析等方法, 对在线医疗健康的国家合作、研究热点、主题演化和研究方法进行深入分析。【结果】在线医疗健康的热点研究集中于互联网医疗健康信息、社交媒体、在线医疗健康社区、电子健康记录等内容, 其主题演化趋势与互联网信息载体的多样化、沟通的便捷化等密切相关。【局限】文献数据仅来自Web of Science核心数据集; 仅以关键词进行主题挖掘和主题演化分析, 未能进行更加深入的探索。【结论】在线医疗健康仍然具有较大的发展空间, 未来可以结合图像识别、深度学习和神经网络等技术进行更加深入的挖掘和研究。

Select

互联网环境下公民健康素养对健康风险的抑制效应分析——基于CHNS数据的慢性病实证研究

宋士杰,赵宇翔,韩文婷,朱庆华

数据分析与知识发现. 2019, 3(4): 13-21. https://doi.org/10.11925/infotech.2096-3467.2018.1026

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】探究互联网背景下健康素养对健康风险的影响及对全民健康的意义。【方法】梳理健康素养对健康风险抑制的作用机理并提出相关假设, 利用“反事实”设计与倾向得分匹配的方法估计互联网环境对健康素养的处理效应, 并以分位数回归方法估计健康素养对于健康风险的抑制作用。【结果】实证结果表明: 接触互联网环境的个体更可能获得更高健康素养, 而更高的健康素养更能抑制慢性病的健康风险。【局限】二手数据限制, 无法从更微观的认知视角研究健康素养对健康风险抑制的心理效应。【结论】根据实证结果从优化信息环境、培育健康素养、识别健康风险等方面提出若干政策建议, 有利于“健康中国”战略目标的实现。

Select

中文网络健康社区中的用户信息需求挖掘研究——以求医网肿瘤板块数据为例

陆泉,朱安琪,张霁月,陈静

数据分析与知识发现. 2019, 3(4): 22-32. https://doi.org/10.11925/infotech.2096-3467.2018.1153

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】构建适应大数据环境的中文网络健康社区用户信息需求挖掘框架, 以肿瘤科为例分析用户信息需求。【方法】使用潜在语义索引(LSI)模型和MapReduce分布式文本聚类技术对中文网络健康社区——求医网肿瘤板块的全部提问数据(共计24 305条)进行用户信息需求挖掘。【结果】挖掘出用户的5个信息需求类目及其占比: 治疗(43.3%)、病理及病因(34.5%)、检查(12.1%)、术后(7.0%)、预防(3.1%), 各类目下Top20关键词; 发现国内外各需求类目占比差异巨大; 预防信息需求将持续上升; 需求的性别差异显著, 男性最关注治疗信息、女性最关注病理及病因信息; 需求的年龄差异较大, 青年群体占比极高(83.79%)等。【局限】可能存在更好的阈值选择, 更完整医学主题词表; 尚未进行信息需求的多维分析。【结论】本文框架可在大数据环境下挖掘用户信息需求, 并分析需求的变化趋势以及年龄与性别差异。

Select

突发公共卫生事件微博话题与用户行为选择研究

安璐,梁艳平

数据分析与知识发现. 2019, 3(4): 33-41. https://doi.org/10.11925/infotech.2096-3467.2018.1037

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】揭示突发公共卫生事件各阶段微博话题与用户各种行为之间的相关关系。【方法】使用基于Relevance公式改进的LDA话题模型提取微博话题, 计算话题分别与用户转发数、评论数、点赞数以及两两之间的标准化差的余弦相似度, 分析不同话题间和同一话题下的行为规律。【结果】在突发公共卫生事件中, 用户转发、评论、点赞这三种行为的演化趋势大致相同, 转发数与评论数、评论数与点赞数、转发数与点赞数之间均存在显著的相关关系, 相关系数分别为0.390、0.274、0.180, 与事件进展、政府回应和知识普及等主题相关的微博更倾向于被评论, 而与群众意见和事件措施等主题相关的微博则更倾向于被转发。【局限】由于仅以“山东问题疫苗事件”和新浪微博作为研究案例和数据来源, 研究结论仍需其他案例和数据源的验证。【结论】用户行为有明显的倾向性, 对不同类型与同一类型的话题会产生不同的行为选择。

Select

社交媒体中突发公共卫生事件舆情传播与演变——以2018年疫苗事件为例

王林,王可,吴江

数据分析与知识发现. 2019, 3(4): 42-52. https://doi.org/10.11925/infotech.2096-3467.2018.1061

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】分析社交媒体中突发公共卫生事件的舆情传播与演变规律, 提出相应舆情监测与舆论引导方案。【方法】基于ELM、TAM模型以及生命周期理论, 建立突发公共卫生事件舆情传播影响因素模型, 探究信息发布者、信息内容以及信息发布日期对舆情传播的影响。【结果】突发公共卫生事件的不同利益群体在舆情发展的不同时期占据舆论主体地位, 时效性强、内容新颖的信息传播更广泛, 官方媒体的发文如果体现出一定的主观性, 其转发量更大。【局限】只对2018年疫苗事件进行实证分析; 在模型普适性验证方面有待提高。【结论】综合考虑信息发布者身份类型、信息内容观点质量以及舆情生命周期的模型能很好地解释突发公共卫生事件在社交媒体平台的舆情传播与演变规律。

Select

医疗舆情事件的微博意见领袖识别与分析研究

吴江,赵颖慧,高嘉慧

数据分析与知识发现. 2019, 3(4): 53-62. https://doi.org/10.11925/infotech.2096-3467.2018.1069

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】针对医疗舆情事件, 识别微博中的意见领袖并研究其影响力。【方法】融合用户个人属性、网络特征、行为特征和文本特征, 构建意见领袖识别的综合指标体系, 通过聚类分析挖掘医疗舆情事件不同生命周期阶段的意见领袖, 并利用时差相关分析研究意见领袖的情感倾向对普通大众情绪的影响。【结果】以2018年疫苗事件为例, 验证了本文意见领袖识别模型的有效性。结果表明不同阶段的医疗舆情热点和意见领袖类型均有所不同, 并且意见领袖的观点和态度对普通大众的情感具有引导作用。【局限】仅针对疫苗事件进行实证分析, 在模型泛化性验证方面有待提高。【结论】本文提出的融合多特征的意见领袖识别方法较传统的评价指标能够更好地发现草根用户中潜在的意见领袖。

Select

基于社会资本与动机理论的在线健康社区医学专业用户知识共享行为分析

彭昱欣,邓朝华,吴江

数据分析与知识发现. 2019, 3(4): 63-70. https://doi.org/10.11925/infotech.2096-3467.2018.0666

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】结合动机理论和社会资本理论, 从多个维度探讨影响医学专业用户知识共享意愿的因素。【方法】采取问卷调查法在线收集数据, 利用SPSS20进行描述性统计及因子分析, 并结合结构方程模型的实证方法对研究假设进行检验。【结果】信任(β=0.10, P<0.05)、共享愿景(β=0.19, P<0.01)、利他主义(β=0.17, P<0.05)、声誉(β=0.12, P<0.05)以及健康知识自我效能调节作用下的利他主义对知识共享意愿(β=0.13, P<0.05)均有积极显著的影响。社会联结、认同和互惠等因素的影响不显著(P>0.05)。【局限】对不显著的变量还需挖掘更深层次的原因。【结论】本文为在线健康社区医学专业用户知识共享行为的相关研究提供理论依据, 为在线健康社区管理者制定医学专业用户知识共享激励机制提供参考建议, 具有一定的实践意义。

Select

基于深度信念网络的文本情感分类研究

张庆庆,贺兴时,王慧敏,蒙胜军

数据分析与知识发现. 2019, 3(4): 71-79. https://doi.org/10.11925/infotech.2096-3467.2018.0516

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】将深度信念网络应用于中文文本情感分类, 系统研究深度信念网络在文本情感分类任务中的参数选择与性能分析。【方法】以中文电子商务网站评论数据为研究对象, 提取一元词、二元词、词性、简单依存关系、情感得分和三元组依存关系特征作为深度信念网络的输入, 通过设置不同网络深度、不同输入维数的网络结构计算分类准确率。【结果】实验结果表明, 三元组依存关系特征作为深度信念网络的输入分类效果更好, 而网络层数对分类准确率的影响不大。【局限】尚未在其他深度学习模型上进行实验验证。【结论】深度学习在文本情感分类任务中性能良好, 验证了深度学习对复杂任务有很强的学习能力, 但其模型选择和参数设置尚需要进一步的研究。

Select

基于结构方程模型的疾病危险因素研究

牟冬梅,法慧,王萍,孙晶

数据分析与知识发现. 2019, 3(4): 80-89. https://doi.org/10.11925/infotech.2096-3467.2018.0631

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】利用结构方程模型分析客观指标数据, 对与疾病相关的危险因素进行挖掘。【方法】利用文献研究、线性相关分析方法提取疾病危险因素, 使用结构方程模型对这些危险因素进行分析; 使用分类回归树(Classification And Regression Tree, CART)算法构建疾病诊断模型, 利用诊断模型对危险因素进行定性、定量评价及对比分析。【结果】挖掘出9个与疾病相关的危险因素, 经定量评价后, 基于结构方程模型的疾病危险因素诊断模型各项指标均处于较高水平, 且整体性能更好。【局限】实验数据量有限。【结论】基于结构方程模型的疾病危险因素能够提高疾病的早期诊断率, 可以辅助临床决策。

Select

一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法

肖连杰,郜梦蕊,苏新宁

数据分析与知识发现. 2019, 3(4): 90-96. https://doi.org/10.11925/infotech.2096-3467.2018.0533

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】解决二分类任务中因类间数据不平衡导致少数类分类准确度低的问题。【方法】提出一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法(ECFCM), 即对多数类样本进行基于 FCM聚类的欠采样, 将聚类中心样本与全部少数类样本组成平衡数据集; 利用基于Bagging的集成学习算法对平衡数据集进行分类。【结果】在4组不平衡数据集上的Matlab仿真实验结果表明, ECFCM算法的Acc、AUC和F₁提升幅度最高为5.75% (Spambase), 13.84% (Glass2)和7.54% (Spambase)。【局限】本文采用标准数据集验证ECFCM算法的有效性, 当采用实际应用中的不平衡数据时, 需要有针对性地研究不平衡数据分类算法。【结论】ECFCM算法分类性能良好, 在一定程度上有利于提高不平衡数据中少数类的分类准确度。

Select

基于多因素特征选择与AFOA/K-means的新闻热点发现方法

温廷新,李洋子,孙静霜

数据分析与知识发现. 2019, 3(4): 97-106. https://doi.org/10.11925/infotech.2096-3467.2018.0757

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】研究新闻文本的特征降维方法及聚类算法, 以期进一步提升热点话题发现效率及准确率。【方法】基于传统TF-IDF特征权重计算方法, 引入符号、词性、位置及长度4个特征加权, 实现多因素特征选择。从编码方式、适应度函数、自适应步长及群体适应度方差这4方面构造改进果蝇优化算法(Ameliorated Fruit Fly Optimization Algorithm, AFOA), 利用AFOA优选K-means初始聚类中心, 实现优化后的K-means热点话题发现。采用多因素特征选择识别热点话题, 利用TOPSIS获得热点话题排名。【结果】相关实验表明, 多因素特征选择及AFOA/K-means算法分别显著提高了聚类效果, 验证了所提方法整体有效性。【局限】仅适用于中文新闻文本。【结论】本文方法能够为中文新闻热点发现方法研究提供一条新思路。

Select

学术社交媒体视角下学科知识流动规律研究——以科学网为例

吴小兰,章成志

数据分析与知识发现. 2019, 3(4): 107-116. https://doi.org/10.11925/infotech.2096-3467.2018.1100

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】探索学术社交媒体上学科知识流动规律。【方法】以科学网为例, 爬取全部用户研究方向数据和全体用户好友关系数据, 利用简单相关系数分析学部用户知识流动分布关系的强弱, 借用Louvain社区发现算法挖掘学部内一级学科知识流动中的社区结构。【结果】简单相关系数结果显示, 不同学部之间知识交流分布相似程度较高, Louvain算法挖掘出4个明显的知识流动社区。【局限】仅仅依据好友关系构建学科知识流动网络, 没有考虑评论及推荐关系。【结论】在科学网上, “生命科学”与“医学科学”表现出最明显的学科亲缘性, 学科交流中存在“地球科学-生命学科-医学科学”、“化学科学-工程材料-数理科学-信息科学”、“地球科学-工程材料”、“信息科学-管理综合”这4个明显的知识流动路径。

Select

基于条件型游走的四部图推荐方法

张怡文,张臣坤,杨安桔,计成睿,岳丽华

数据分析与知识发现. 2019, 3(4): 117-125. https://doi.org/10.11925/infotech.2096-3467.2018.0662

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过挖掘用户与项目、用户与类别的关系特征, 提取用户偏好, 优化个性化推荐效果。【方法】提取用户对项目的评分和项目的度属性, 挖掘用户偏好, 提出用户-项目二部图上的游走条件; 通过用户-项目-类别三部图映射到用户-类别二部图, 构建类别-用户-项目-类别四部图; 建立通过项目和类别共同挖掘用户偏好的个性化推荐方法。【结果】利用MovieLens电影评分数据, 分别对基于二部图、加权二部图、三部图的方法与本文方法进行对比实验, 结果表明, 本文方法在准确率、MAE、召回率、覆盖率方面分别有所优化。【局限】MovieLens数据集缺少用户对电影评论性的文字数据集, 不能通过语义分析用户偏好。【结论】本文对用户评分和项目度属性进行用户偏好分析, 通过条件型游走四部图推荐方法, 优化推荐效果。

选择文件类型/文献管理软件名称

选择包含的内容

2019年, 第3卷, 第4期　
刊出日期：2019-04-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2019年, 第3卷, 第4期 刊出日期：2019-04-25

2019年, 第3卷, 第4期　
刊出日期：2019-04-25