Please wait a minute...
Advanced Search
数据分析与知识发现
  本期目录 | 过刊浏览 | 高级检索 |
一种基于机器学习的食源性疾病致病菌识别方法
王寒雪,崔文娟,周园春,杜一
(中国科学院计算机网络信息中心 北京  100089) 
(中国科学院大学 北京 100089)
A Method for Identifying Pathogens of Foodborne Diseases based on Machine Learning
Wang Hanxue,Cui Wenjuan,Zhou Yuanchun,Du Yi
(Computer Network Information Center, Chinese Academy of Sciences, Beijing 100089, China)
(Chinese Academy of Sciences University, Beijing 100089, China)
全文: PDF (644 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]引入外部食品领域数据增强暴露食品的词向量表征,利用机器学习方法对食源性疾病致病菌进行识别。

[方法]通过从食源性疾病病例数据中提取出空间、时间、患者信息、暴露食品信息等作为食源性疾病致病菌识别的特征数据,并进一步利用融合领域知识的词向量表征等技术对食源性疾病暴露食品进行表征,使用XGBoost机器学习模型挖掘、学习特征之间的相关性,从而实现对几种重要的食源性疾病致病菌的识别。

[结果]通过融合领域数据的词向量表征方法,可以获得相较于基于通用语料的词向量模型而言更加准确的暴露食品词向量表征。在食源性疾病致病菌识别上,能够在沙门氏菌、诺如病毒、致泻大肠埃希氏菌属、副溶血性弧菌四种重要的食源性疾病致病菌上达到68%的精确率和召回率,为食源性疾病致病菌的辅助诊疗提供帮助。

[局限]仅对四种主要食源性疾病致病菌进行分析。

[结论]相关的分析结果能够指导食源性疾病的管理、处置方案的制定,基于分析结果及机器学习方法的致病菌识别能为食源性疾病的临床辅助诊疗提供有益支持。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 食源性疾病致病菌识别词表征模型机器学习     
Abstract

[Objective] Introduce external food field data to enhance the word vector representation of foodborne exposure food, and use machine learning methods to identify foodborne disease pathogens.

[Methods] By extracting space, time, patient information, exposure food information from foodborne disease case data as feature data for identification of foodborne disease pathogens, and further using word vector representation technology that integrates domain knowledge to embed foodborne disease exposure food, and utilizing XGBoost machine learning model to mine and learn the correlation between features, to realize the identification of several important foodborne disease pathogens.

[Results] Through the word vector representation method, which integrates domain data, a more accurate word vector representation of exposure food can be obtained compared with the word vector model based on general corpus. In the identification of foodborne disease pathogens, it can achieve 68% precision and recall on four important foodborne disease pathogens: Salmonella, Escherichia coli, Vibrio parahaemolyticus and Norovirus, which assistance for the auxiliary diagnosis and treatment of pathogens of foodborne diseases.  

[Limitations] Only four major foodborne disease pathogens were analyzed.

[Conclusions] Relevant analysis results can guide the management and prevent of foodborne diseases, and the identification of foodborne pathogens based on the analysis results and machine learning methods can provide beneficial support for the clinical diagnosis and treatment of foodborne diseases.

Key words Foodborne disease    Pathogen identification    Word Embedding    Machine learning
     出版日期: 2020-11-24
引用本文:   
王寒雪, 崔文娟, 周园春, 杜一. 一种基于机器学习的食源性疾病致病菌识别方法 [J]. 数据分析与知识发现, 10.11925/infotech.2096-3467.2020.1105.
Wang Hanxue, Cui Wenjuan, Zhou Yuanchun, Du Yi. A Method for Identifying Pathogens of Foodborne Diseases based on Machine Learning . Data Analysis and Knowledge Discovery, 0, (): 1-.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2020.1105      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y0/V/I/1
[1] 陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
[2] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[3] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[4] 王树义,刘赛,马峥. 基于深度迁移学习的微博图像隐私分类研究*[J]. 数据分析与知识发现, 2020, 4(10): 80-92.
[5] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[6] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[7] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[8] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[9] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[10] 徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[11] 李静,潘舒笑,李雪岩,贾立静,赵宇卓. 基于多目标量子优化分类器的急诊危重患者关键指标筛选 *[J]. 数据分析与知识发现, 2019, 3(12): 101-112.
[12] 沈洋,庄伟超,吴清华,钱玲飞. 基于区间模糊VIKOR的监犯特征风险评估研究 *[J]. 数据分析与知识发现, 2019, 3(11): 70-78.
[13] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[14] 刘丽娜, 齐佳音, 张镇平, 曾丹. 品牌对商品在线销量的影响*——基于海量商品评论的在线声誉和品牌知名度的调节作用研究[J]. 数据分析与知识发现, 2018, 2(9): 10-21.
[15] 贾隆嘉, 张邦佐. 高校网络舆情安全中主题分类方法研究*——以新浪微博数据为例[J]. 数据分析与知识发现, 2018, 2(7): 55-62.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn