【目的】了解并梳理大数据驱动的知识发现新范式下, 生物医学信息学的最新进展, 并给出生物医学信息学未来发展的建议。【方法】通过文献调研与平台试用, 总结近几年生物医学信息学在大数据资源体系建设、数据分析平台、数据分析方法、辅助临床决策应用等方面的发展现状。【结果】未来可将加强生物医学大数据体系建设、创新大数据分析基础理论与方法研究、推进知识分析工具与平台开发、促进临床转化应用以及培养高层次专门人才等作为生物医学信息学的重点发展方面。【局限】限于篇幅, 未全面涉及生物医学数据资源、方法与应用案例等。【结论】本文针对精准医学大数据知识发现环境下生物医学信息学发展提出5方面建议, 可辅助该学科进一步顺应科学大数据的发展趋势, 满足领域知识发现的需求。
【目的】分析关联大数据的概念、内涵与特征, 针对关联大数据管理的技术挑战, 探讨关联大数据管理技术的对策和解决思路。【方法】结合NoSQL数据管理技术、分布式图计算技术、大数据流水线技术等给出应对挑战的思路, 并基于此思路形成大规模图数据仓库加工系统gETL。【结果】该方法和系统在NSFC-KBMS和WDCM项目中得到了应用, 实现了大规模知识型数据和生物数据的有效管理, 满足了多元化的数据管理需求。【局限】需要结合应用的情况, 进一步完善方法与系统。【结论】通过采用NoSQL数据存储技术、分布式图计算技术、大数据流水线技术以及gETL系统, 可以很好地解决关联大数据的管理问题。
【目的】科技论文中数值指标的大小有多种描述形式, 本文旨在从不同形式的描述句中准确识别数值指标的实际取值。【方法】分析数值指标句中指标实体与数字实体间最小句法树路径, 采用远程监督学习数值指标句的句法特征及描述特征, 从领域候选句中识别数值指标句; 利用少量语义标注数据学习“大于”、“小于”、“等于”、“倍数” 4类取值关系模板, 通过模板识别数值指标句的取值关系类别, 依据不同取值关系模板对应的数值指标实际取值换算关系计算指标实际数值的大小。【结果】在气候变化领域和天文学领域开展实验, F值分别达到82.35%和77.55%, 识别效果达到同类研究平均水平之上。【局限】以单句为数据单元开展识别研究, 对于跨句间的指标取值问题未做考虑。【结论】本方法能够有效识别单句中数值指标的实际取值, 识别过程不需要大量人工标注语料, 迁移到其他领域时不做额外处理, 系统性能不会明显下降, 具有一定的实用性。
【目的】为提升传统LDA模型的主题识别性能, 并给主题最优数目选择提供技术方案, 提出基于自适应聚类的K-wrLDA模型。【方法】利用LDA和Word2Vec模型得出包含主题词概率信息及词义相关性的T-WV矩阵, 并将传统LDA模型的主题数目选择问题转化为聚类效果评价问题, 以内部指标伪F统计量作为目标函数, 计算主题聚类数目的最优解, 并对新旧两种模型的主题识别效果进行比较。【结果】经自适应聚类得出最优主题数量为33, 且新模型的困惑度得分始终低于传统模型, 主题识别效果对比显示新模型具有更好的凝聚性。【局限】在实证语料选取上获取单一主题下的科技文献, 数据量不大。【结论】新模型具有更理想的主题识别能力, 并能够自主计算最优主题数目。该模型作为对传统LDA模型的改进, 可以应用于各领域的大规模语料中。
【目的】基于大规模评论数据, 提出一种产品特征词典的构建方法, 以提升识别产品特征的查准率和查全率。【方法】在人工标注的基础上, 基于同义词林的扩展, 以及大规模评论文本的词向量训练, 计算词语的语义相似度和相关性, 进行特征的识别与归并, 进而形成产品特征词典。【结果】本文选取手机、相机、图书三类产品的评论数据进行实验, 平均查准率和平均查全率分别为0.774和0.855。结果显示, 该方法具有一定的普适性。【局限】标注及验证需大量人工参与, 自动化程度不够; 没有考虑评论中的隐含特征。【结论】通过与已有研究比较, 验证了本文提出方法的有效性, 特别在查全率上具有显著的提升。
【目的】对用户在移动购物APP进行的信息浏览与商品购买行为特征进行描述分析, 并尝试预测商品购买。【方法】在日志请求参数与用户信息行为类型之间建立映射, 得到用户的行为解析, 进一步分析用户行为特征后, 使用Logistic二元回归和C&R决策树两种方法建立商品支付购买预测模型。实验数据来自2015年3月某移动购物APP的290位重度用户的3 923 429条服务器端日志。【结果】在用户浏览行为特征方面, 用户周内使用平稳, 夜晚睡前达到高峰; 最关注单品详情, 浏览程度越深越有可能查看店铺信息并进行商品、店铺信息的分享; 用户对商品的浏览呈幂律分布, 90%的商品浏览记录都在16条以下。在用户购买行为特征方面, 有9条浏览记录的商品、提交了订单的商品最有可能被购买; 商品购买与浏览、分享单品和店铺信息次数呈正相关。在商品支付购买预测方面, C&R决策树预测准确率稍高于Logistic二元回归, 然而变量种类远少于后者。【局限】日志数据可能不能准确反映用户的操作行为; 对于用户行为的解析有一定模糊性; 数据来自重度用户, 可能不具有普适性; 数据来自于3月份这个时间段, 可能会受前后浏览或购买行为的影响。【结论】用户浏览及购买行为特征可帮助移动购物APP完善产品功能, 提升用户体验; Logistic二元回归相比于C&R决策树可以更好地预测商品支付购买。
【目的】针对采用LDA模型识别出的主题中往往含有一些无意义的主题, 严重影响演化分析的精确性问题, 本文提出采用主题过滤和主题关联的方式, 构建学科主题在时间序列上的演化路径, 并分析主题在内容上的演化情况。【方法】计算主题在所有文献中出现的概率, 识别并过滤边缘主题; 根据主题中词汇分布的倾向性, 识别并过滤无意义的噪音主题。将过滤后的主题作为主题演化分析的主题, 通过计算相邻时间段中主题间的JS散度识别相关主题, 从而根据主题间的相关关系构建主题演化路径。【结果】以“机器学习”领域的文献为例, 构建学科主题演化路径, 展示主题间的新生、消亡、继承、分裂和合并5种演化方式, 并以微观的“图像识别”为例, 验证了方法的有效性。【局限】在构建主题演化路径时, 采用人工判断方法设置阈值, 具有一定的主观性。【结论】本文方法避免了不重要的边缘主题和无意义的噪音主题对相邻时间段中相关主题识别造成的干扰, 提高了所构建的主题演化路径的准确性, 能够更为准确地展示学科主题的演化规律。
【目的】研究社会交互对在线医疗问答患者用户使用意愿的作用机理。【方法】以互动为研究视角, 基于互动感知理论构建在线医疗问答患者用户使用研究理论模型, 采用调研问卷的方式收集371份有效数据, 使用Smart PLS 3.0工具对模型进行检验。【结果】本文验证了在线医疗问答情境下患者在贡献信息时感知的自我效能和利他愉悦, 人机交互时的感知易用性和感知有用性, 以及认知信任和情感信任对其使用意愿的正向影响, 扩展了以往的研究情景。较以往研究更进一步的是本文发现患者用户在接收信息时感知的信息和情感支持对认知和情感信任具有不同影响, 并在患-医和患-患交互中表现出差异。【局限】由于疾病类型和信息作用方式(直接或间接)差异而导致的结果差异尚待研究。【结论】在线医疗问答患者用户的人际互动和人机互动感知对其使用意愿均有正向影响。
【目的】以高维的结构化电子病历数据为研究对象, 探究数据降维的策略, 为电子病历知识发现提供参考。【方法】通过文献调研进行初步约简, 再分别利用主成分分析法提取特征根大于1的因子、提取累计贡献率大于85%的因子, 利用Logistic回归方法提取有显著差异性的因子进行降维; 根据实证研究定性定量评价三种方法提取的属性结果。【结果】三种降维方法分别提取8个、17个和14个属性, 经过定性和定量评价发现, 利用主成分分析方法提取特征根大于1的因子的降维效果相对较好。【局限】数据样本量有限, 未能搜集一定时间跨度的数据进行深入分析。【结论】本研究制定的数据降维策略有效, 可以在保留目标数据原始特征的同时, 对高维空间数据进行识别、定位、分析, 用较少的属性特征代替整体数据集, 解决电子病历数据维度过高带来的数据挖掘灾难, 提高数据挖掘的效率和分析结果的准确性。
【目的】随着门诊的日就诊人数逐渐增多, 优化门诊药房药品摆放布局, 能够有效提高整个药房系统的服务效率。【方法】选择处方数量最多的两个科室的处方数据, 应用K-means聚类算法将数据集划分为4个子数据集, 使用Apriori算法对4个子数据集进行关联规则挖掘, 得到31条药品有效规则和18条药类有效规则。【结果】综合药类和药品有效规则中挖掘出的信息, 结合国家药品储存陈列规范, 在得到某医院门诊药房的药房管理专家认可的情况下, 设计出药类和药品的大致布局。【局限】只提取两个科室的处方数据, 用于关联规则分析的处方数据不够完善。【结论】将关联规则方法和K-means聚类算法应用于解决门诊药房的药品陈列布局问题, 用数据支撑药品陈列布局设计, 并得到药房专家的认可。有利于减轻药剂师的工作强度, 缩短患者取药时间, 提高整个药房的服务效率。