Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (8): 98-106     https://doi.org/10.11925/infotech.2096-3467.2018.0142
  应用论文 本期目录 | 过刊浏览 | 高级检索 |
基于文献数据的疾病与基因关联关系研究*
牟冬梅(), 金姗, 琚沅红
吉林大学公共卫生学院 长春 130021
Finding Association Between Diseases and Genes from Literature Abstracts
Mu Dongmei(), Jin Shan, Ju Yuanhong
School of Public Health, Jilin University, Changchun 130021, China
全文: PDF (619 KB)   HTML ( 4
输出: BibTeX | EndNote (RIS)      
摘要 

目的】通过对文献摘要数据进行挖掘实现知识发现, 发现疾病关联基因及其规律, 为疾病的预防与治疗提供依据。【方法】采用基于词典的实体识别技术, 构建实体抽取规则, 提出疾病与基因实体间关联关系发现模型。选取糖尿病肾病相关摘要对模型进行验证, 应用聚类分析方法对疾病关联基因进行分析, 根据聚类结果采用回溯分析的方法回溯至原摘要讨论。【结果】获得656个糖尿病肾病关联基因, 根据聚类分析结果, 将关联基因分为三类, 其中频次为26的基因为高频基因, 11到19的为中频基因, 1到10的为低频基因。【局限】实验数据选取有限, 仅选取糖尿病肾病进行实验, 未来可选取其他糖尿病并发症进行实验与对比分析。【结论】(1)疾病的高频基因可能是当前研究的理论依据; (2)中频基因是当前研究的热点; (3)低频基因是可能的知识发现, 未来可能进一步发展成为研究热点。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
牟冬梅
金姗
琚沅红
关键词 实体识别信息抽取聚类分析基因关联关系    
Abstract

[Objective] This study tries to find association between genes and diseases from literature abstracts, aiming to provide evidence for the prevention and treatment of diseases. [Methods] First, we established the entity extraction rules with the help of recognition techniques based on thesaurus. Then, we proposed a model to discover the association between disease and gene entities. Finally, we validated the new model with abstracts of diabete nephropathy studies. [Results] A total of 656 diabetic nephropathy associated genes were obtained, which included high frequency, mid frequency and low frequency genes. [Limitations] More research is needed to explore other diabete complications with the proposed model. [Conclusions] (I)The high frequency associated genes of disease are possibly the theoretical foundations of current research. (II)Intermediate frequency associated genes are the focus of current research. (III) Low frequency associated genes could become new fields for knowledge discovery.

Key wordsEntity Recognition    Information Extraction    Cluster Analysis    Genes Association Relationship
收稿日期: 2018-02-02      出版日期: 2018-09-08
ZTFLH:  G350  
基金资助:*本文系国家自然科学基金项目“嵌入式知识服务驱动下的领域多维知识库构建”(项目编号:71573102)和吉林省教育厅人文社会科学研究项目“虚拟健康社区知识发现与实证研究”(项目编号:JJKH20170881SK)的研究成果之一
引用本文:   
牟冬梅, 金姗, 琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
Mu Dongmei,Jin Shan,Ju Yuanhong. Finding Association Between Diseases and Genes from Literature Abstracts. Data Analysis and Knowledge Discovery, 2018, 2(8): 98-106.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0142      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I8/98
  疾病与基因实体间关联关系发现模型
  PubMed文献记录(部分)
  基因本体(部分)
  疾病本体——(糖尿病)肾病(部分)
  结构化摘要数据(部分)
序号 ID 基因符号 频次
1 618 APOL1 26
2 12679 VDR 19
3 333 AGT 18
4 1662 CD34 17
5 11850 TLR4 15
6 634 AQP2 14
7 2500 CTGF 14
8 6769 SMAD3 14
9 14929 SIRT1 12
10 613 APOE 11
  糖尿病肾病关联基因表(部分)
  糖尿病肾病关联基因树状图(部分)
PMID 涉及内容
27054572 非裔人群中APOL1肾风险变异与终末期肾脏病密切相关
26776194 终末期肾病的非裔美国人的基因变异与邻近的APOL1
强连锁不平衡密切相关
26668025 APOL1的风险等位基因与HIV阳性黑人的肾病和局灶性节段性肾小球硬化症关联
26343748 非裔美国人APOL1肾病危险变异体呈常染色体隐性遗传模式
26215860 APOL1的遗传变异引起慢性终末期肾脏疾病的风险
26180129 APOL1基因变异与黑人肾脏疾病相关
26150607 APOL1变异与黑人肾脏表型相关
26112018 非裔人群中APOL1变异与慢性肾脏疾病关联
25573908 APOL1变异引起肾脏疾病的风险
25549121 非裔美国人群中APOL1与慢性肾病和终末期肾脏疾病的发病率增加相关
  APOL1相关摘要内容(部分)
基因名称 PMID 涉及内容
TLR4 26568190 TLR4可诱导多种炎性细胞因子的生产, 因此认为TLR4有益于治疗糖尿病肾病。
TLR4 26497229 发现维生素D3在糖尿病肾病尿毒症的炎症免疫反应与TLR4相关。
TLR4 26398934 发现TLR4的内源性配体和核因子-kb启动子活性在糖尿病小鼠肾脏中明显升高。
SMAD3 26449625 发现尿SMAD3与肾小球滤过率双相变化显著相关, 可作为一种新型的标志物筛查2型糖尿病患者的肾病。
SMAD3 26052839 发现灭活TGF-β/SMAD3的通路引起细胞外基质蛋白降低, 进而抑制糖尿病肾病。
SMAD3 26041445 发现高血糖增加SMAD3磷酸化, 进而导致肾功能衰竭。
SIRT1 27470548 发现SIRT1/p53轴在高血糖条件下可诱导肾近曲小管上皮细胞凋亡。
SIRT1 26588494 综述了SIRT1在糖尿病肾病中的作用机制。
SIRT1 25386563 SIRT1可抑制肾细胞, 它的激活可能成为糖尿病肾病的新的治疗靶点。
  中频基因相关摘要内容(部分)
基因名称 PMID 涉及内容
ABCA1 26379423 胆固醇紊乱可致糖尿病肾病, 实验发现花青素加强ABCA1表达和胆固醇流出。
ABCA1 25181357 发现ABCA1表达降低可能促进胆固醇的积累, 可能促进糖尿病肾病的发展。
RhoA 25641678 发现PTEN引起RhoA活化失衡, 引起足细胞损伤, 进而可促进糖尿病肾病的发展。
RhoA 24925721 SMPDL3b的表达增加RhoA的活性, 使足细胞更易发生凋亡, 促进糖尿病肾病的发展。
CCR2 27926736 CCR2及其配体与糖尿病肾病相关。
CCR2 26268910 实验数据表明CCR2在2型糖尿病肾病患者治疗中具有肾脏保护作用。
CYP11B2 27009287 研究表明CYP11B2基因多态性可能有助于糖尿病肾病的发展, 尤其是在亚洲人群中。
CYP11B2 25957425 发现CYP11B2基因多态性可能对糖尿病患者的慢性肾病发展产生影响。
  低频基因相关摘要内容(部分)
[1] 王郝日钦. 深度学习在文本挖掘中的应用研究[D]. 通辽: 内蒙古民族大学, 2015.
[1] (Wang Haoriqin.Application of Deep Learning in Text Mining [D]. Tongliao: Inner Mongolia University for Nationalities, 2015.)
[2] 吴潇泽. 科技文献趋势挖掘技术研究[D]. 杭州: 杭州电子科技大学, 2010.
[2] (Wu Xiaoze.Research of Scientific Literature Trend Mining Technology [D]. Hangzhou: Hangzhou Dianzi University, 2010.)
[3] 郑玲, 刘秋爽, 金晶, 等. 糖尿病并发症治疗靶点的研究进展[J]. 海峡药学, 2014, 26(1):13-17.
[3] (Zheng Ling, Liu Qiushuang, Jin Jing, et al.Research Progress on the Target of Diabetic Complications Treatment[J]. Strait Pharmaceutical Journal, 2014, 26(1): 13-17.)
[4] 李英, 唐英琪. 载脂蛋白E(ApoE)基因多态性与2型糖尿病(T2DM)血脂及其脑梗死并发症的关系研究[J]. 中外医疗, 2014(31): 37-38,41.
[4] (Li Ying, Tang Yingqi.Study of the Relationship Between Apolipoprotein E (ApoE) Gene Polymorphism, Type 2 Diabetes (T2DM) Blood Lipid and Cerebral Infarction Complication[J]. China & Foreign Medical Treatment, 2014(31): 37-38,41.)
[5] 许慧宁, 代青湘. PON2 Cys311Ser 基因多态性与高原老年糖尿病并发症的关系[J]. 世界最新医学信息文摘:电子版, 2014(21):11,13.
doi: 10.3969/j.issn.1671-3141.2014.21.005
[5] (Xu Huining, Dai Qingxiang. Relationship Between PON2 Cys311Ser Gene Polymorphism and Elderly Diabetic Complications in Plateau [J]. World Latest Medicine Information, 2014(21):11,13.)
doi: 10.3969/j.issn.1671-3141.2014.21.005
[6] 唐珊珊. Irisin及其基因多态性与中国人2型糖尿病相关临床性状及微血管并发症的关系[D]. 上海: 上海交通大学, 2015.
[6] (Tang Shanshan.Association of Irisin and Its Genetic Variants with Type 2 Diabetes-related Traits and Microvascular Complications in the Chinese Population [D]. Shanghai: Shanghai Jiaotong University, 2015.)
[7] 徐哲奕. 2型糖尿病大血管并发症中血管平滑肌细胞增殖相关基因DNA甲基化的作用研究[D]. 武汉: 华中科技大学, 2014.
[7] (Xu Zheyi.Study on DNA Methylation Alteration of Vascular Smooth Muscle Cell Proliferation Related Genes in Type 2 Diabetic Macrovascular Complications [D]. Wuhan: Huazhong University of Science and Technology, 2014.)
[8] 余翠, 熊钱颖, 王李卓, 等. 糖尿病肾病的发病机制及治疗进展[J]. 医学综述, 2015, 21(21): 3944-3947.
[8] (Yu Cui, Xiong Qianying, Wang Lizhuo, et al.Recent Progress in the Pathogenesis of Diabetic Nephropathy and Its Treatment[J]. Medical Recapitulate, 2015, 21(21): 3944-3947.)
[9] 张晓艳, 王挺, 陈火旺. 命名实体识别研究[J]. 计算机科学, 2005, 32(4): 44-48.
[9] (Zhang Xiaoyan, Wang Ting, Chen Huowang.Research on Named Entity Recognition[J]. Computer Science, 2005, 32(4): 44-48.)
[10] Karadeniz İ, Özgür A.Detection and Categorization of Bacteria Habitats Using Shallow Linguistic Analysis[J]. BMC Bioinformatics, 2015, 16(S10): S5.
doi: 10.1186/1471-2105-16-S10-S5 pmid: 4511461
[11] Yimam S M, Biemann C, Majnaric L, et al.An Adaptive Annotation Approach for Biomedical Entity and Relation Recognition[J]. Brain Informatics, 2016, 3(3): 157-168.
doi: 10.1007/s40708-016-0036-4 pmid: 4999566
[12] Lin W, Ji D, Lu Y.Disorder Recognition in Clinical Texts Using Multi-label Structured SVM[J]. BMC Bioinformatics, 2017, 18: 75.
doi: 10.1186/s12859-017-1476-4 pmid: 5282630
[13] 舒刚. 基于生物医学文本挖掘技术的天然产物的靶标蛋白预测[D]. 上海: 复旦大学, 2012.
[13] (Shu Gang.Prediction on Target Protein of Natural Products Based on Biomedical Text Mining Technology [D]. Shanghai: Fudan University, 2012.)
[14] 李保利, 陈玉忠, 俞士汶. 信息抽取研究综述[J]. 计算机工程与应用, 2003, 39(10):1-5.
[14] (Li Baoli, Chen Yuzhong, Yu Shiwen.Research on Information Extraction: A Survey[J]. Computer Engineering and Applications, 2003, 39(10): 1-5.)
[15] 方福德. 人类基因的命名和书写[J]. 基础医学与临床, 2010(10). DOI: 10.16352/j.issn.1001-6325.2010.10.001.
[15] (Fang Fude. Nomenclature and Writing of Human Gene [J]. Basic & Clinical Medicine, 2010(10). DOI:10.16352/j.issn.1001-6325.2010.10.001.)
[16] HGNC [EB/OL]. [2017-05-20].
[17] 尚美辰. 基于UMLS和通路数据的潜在语义分析技术的研究与实现[D]. 哈尔滨:黑龙江大学, 2015.
[17] (Shang Meichen.Research and Implementation of Latent Semantic Analysis Technology Based on UMLS and Path Data [D]. Harbin: Heilongjiang University, 2015.)
[18] 肖袁. 基于DOM4J的XML文档解析技术[J]. 科技信息, 2011(2): 229-230.
[18] (Xiao Yuan.XML Document Parsing Technology Based on DOM4J[J]. Science & Technology Information, 2011(2): 229-230.)
[19] 杨宏新, 毛培春, 孟林, 等. 19份高燕麦草种质材料苗期抗旱性评价[J]. 干旱地区农业研究, 2011, 29(2): 6-14.
[19] (Yang Hongxin, Mao Peichun, Meng Lin, et al.Assessment of Drought Resistance for 19 Germplasm and Materials of Arrhenatherum Elatius at the Seedling Stage[J]. Agricultural Research in the Arid Areas, 2011, 29(2): 6-14.)
[20] Amberger J, Bocchini C, Hamosh A.A New Face and New Challenges for Online Mendelian Inheritance in Man (OMIM®)[J]. Human Mutation, 2011, 32(5): 564-567.
doi: 10.1002/humu.21466 pmid: 21472891
[21] OMIM [EB/OL]. [2017-07-05].
[22] Dorr C R, Freedman B I, Hicks P J, et al.Deceased-Donor Apolipoprotein L1 Renal-Risk Variants Have Minimal Effects on Liver Transplant Outcomes[J]. PLoS One, 2016, 11(4): e0152775.
doi: 10.1371/journal.pone.0152775
[23] Dummer P D, Limou S, Rosenberg A Z, et al.APOL1 Kidney Disease Risk Variants: An Evolving Landscape[J]. Seminars in Nephrology, 2015, 35(3): 222-236.
doi: 10.1016/j.semnephrol.2015.04.008 pmid: 26215860
[24] Dollerup P, Thomsen T M, Nejsum L N, et al.Partial Nephrogenic Diabetes Insipidus Caused by a Novel AQP2 Variation Impairing Trafficking of the Aquaporin-2 Water Channel[J]. BMC Nephrology, 2015, 16(1): 217.
doi: 10.1186/s12882-015-0213-3
[25] Guo K, Lu J, Kou J, et al.Increased Urinary Smad3 is Significantly Correlated with Glomerular Hyperfiltration and a Reduced Glomerular Filtration Rate and is a New Urinary Biomarker for Diabetic Nephropathy[J]. BMC Nephrology, 2015, 16(1): 159.
doi: 10.1186/s12882-015-0156-8
[26] Tsun J G S, Yung S, Chau M K M, et al. Cellular Cholesterol Transport Proteins in Diabetic Nephropathy[J]. PLoS One, 2014, 9(9): e105787.
doi: 10.1371/journal.pone.0105787 pmid: 4152117
[27] Xu H, Wang X, Liu M, et al.Association of Aldosterone Synthase (CYP11B2) -344 T/C Polymorphism with Diabetic Nephropathy: A Meta-analysis[J]. Journal of the Renin-Angiotensin-Aldosterone System: JRAAS, 2016, 17(1): 1470320316633896.
[1] 赵平,孙连英,涂帅,卞建玲,万莹. 改进的知识迁移景点实体识别算法研究及应用*[J]. 数据分析与知识发现, 2020, 4(5): 118-126.
[2] 高原,施元磊,张蕾,曹天奕,冯筠. 基于游记文本的游客游览行程重构*[J]. 数据分析与知识发现, 2020, 4(2/3): 165-172.
[3] 马建霞,袁慧,蒋翔. 基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 78-88.
[4] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[5] 吴江,赵颖慧,高嘉慧. 医疗舆情事件的微博意见领袖识别与分析研究*[J]. 数据分析与知识发现, 2019, 3(4): 53-62.
[6] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[7] 陈美杉,夏晨曦. 肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法 *[J]. 数据分析与知识发现, 2019, 3(12): 61-69.
[8] 章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 *[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[9] 肖连杰,孟涛,王伟,吴志祥. 基于深度学习的情报分析方法识别研究 * ——以安全情报领域为例[J]. 数据分析与知识发现, 2019, 3(10): 20-28.
[10] 余丽,钱力,付常雷,赵华茗. 基于深度学习的文本中细粒度知识元抽取方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 38-45.
[11] 唐慧慧, 王昊, 张紫玄, 王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[12] 范馨月, 崔雷. 基于文本挖掘的药物副作用知识发现研究[J]. 数据分析与知识发现, 2018, 2(3): 79-86.
[13] 刘明辉. 基于K-means聚类分析的民航系统恐怖主义风险评估*[J]. 数据分析与知识发现, 2018, 2(10): 21-26.
[14] 何跃, 王爱欣, 丰月, 王莉. 基于关联规则的门诊药房布局优化[J]. 数据分析与知识发现, 2018, 2(1): 99-108.
[15] 陈润文, 邱勇, 黄文彬, 王军. 基于日志分析的民办高校大学生网络生活类型研究[J]. 数据分析与知识发现, 2017, 1(8): 31-38.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn