Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (11): 75-83     https://doi.org/10.11925/infotech.2096-3467.2017.0752
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
网络社区中的知识元链接体系构建研究*
陈果1(), 肖璐2
1南京理工大学经济管理学院 南京 210094
2南京大学信息管理学院 南京 210023
Linking Knowledge Elements from Online Community
Chen Guo1(), Xiao Lu2
1School of Economics & Management, Nanjing University of Science and Technology, Nanjing 210094, China
2School of Information Management, Nanjing University, Nanjing 210023, China
全文: PDF (2620 KB)   HTML ( 1
输出: BibTeX | EndNote (RIS)      
摘要 

目的】通过构建知识元链接体系, 实现网络社区中碎片化知识的深度连通, 以有效引导用户知识探索中的横向扩展和纵向深入。【方法】首先构建领域知识库, 再融合知识元在知识库中的语义关联和在用户生成内容(UGC)资源中的共现相似度以生成知识元链接, 随后对UGC文档中的知识元进行标识, 指向自动生成的知识元内容页。【结果】以丁香园心血管论坛为例, 抽取心血管领域内概念单元2 211个, 细粒度概念关联5 741对, 对5 020条帖子内容进行知识元标注, 链向自动生成的知识元内容页面。【局限】仅关注知识元链接体系在个体知识单元组织中的利用, 尚未在知识组织宏观层面就其开展探索。【结论】知识元链接体系在不改变网络社区中现有的资源组织架构的前提下, 实现了知识元、UGC文档的多维关联, 具有很强的可用性和适应性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
陈果
肖璐
关键词 网络社区知识组织领域知识库领域概念关联知识元链接体系    
Abstract

[Objective] This paper proposes a system to link the fragmented knowledge elements from an online community, aiming to help explore knowledge more effectively. [Methods] First, we built a domain knowledge base for the online community. Then, we combined units of the domain knowledge base with the semantically similar elements of the user-generated-content (UGC). Finally, we identified the knowledge units of the UGC and linked them with relevant Web pages. [Results] We examined the proposed method with a Chinese cardiovascular BBS site. A total of 2,211 cardiovascular concepts and 5,741 fine-grained relations were extracted to create the domain knowledge base. We identified the knowledge elements from 5,020 posts automatically and linked them with relevant webpages. [Limitations] Only investigated the linking of knowledge elements at the micro level. [Conclusions] The proposed system can effectively establish connections between knowledge units and UGC documents based on the existing resource organization schemes. The new method could be used in other fields.

Key wordsOnline Community    Knowledge Organization    Domain Knowledge Base    Domain Conceptual Relation    Knowledge Element Linking System
收稿日期: 2017-07-27      出版日期: 2017-11-27
ZTFLH:  G250.7  
基金资助:*本文系国家社会科学基金青年项目“领域分析视角下的科技词汇语义挖掘与知识演化研究”(项目编号: 16CTQ024)的研究成果之一
引用本文:   
陈果, 肖璐. 网络社区中的知识元链接体系构建研究*[J]. 数据分析与知识发现, 2017, 1(11): 75-83.
Chen Guo,Xiao Lu. Linking Knowledge Elements from Online Community. Data Analysis and Knowledge Discovery, 2017, 1(11): 75-83.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0752      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I11/75
  网络社区知识元链接体系的微观单元
  网络社区知识元链接体系的宏观结构
  网络社区知识元链接体系构建流程
  心血管社区中的UGC示例
  “冠心病”词条Wiki框内相关概念分布
概念数量(个) 细粒度概念关联数量(对)
疾病 394 等同关系 1 265
别名 580
器官 93 发病部位 138
症状 652 表征关系 2 445
并发症 203 并发关系 554
诊断方法 289 诊断关系 1339
总计 2 211 总计 5 741
  基于Wiki信息框抽取的心血管领域概念及其细粒度关联数量统计
  基于共现的知识元Pearson相似度计算结果(部分)
相关概念 关联类型 语义
关联强度
共现
相似度
知识元
链接强度
缺血性心肌病 并发症 0.50 0.91 0.71
心肌梗塞 并发症 0.50 0.89 0.70
绝经 并发症 0.50 0.88 0.69
心源性休克 并发症 0.50 0.86 0.68
心力衰竭 并发症 0.50 0.84 0.67
心脏 相关器官 0.50 0.95 0.73
血管 相关器官 0.50 0.93 0.72
静脉 相关器官 0.33 0.93 0.63
颈动脉 相关器官 0.33 0.85 0.59
微循环 相关器官 0.33 0.83 0.58
疲乏 相关症状 0.50 0.82 0.66
心电图异常 相关症状 0.50 0.81 0.66
心源性胸痛 相关症状 0.50 0.72 0.61
左心室肥厚 相关症状 0.33 0.87 0.60
心率增快 相关症状 0.33 0.86 0.59
冠脉造影 诊断关系 0.50 0.93 0.72
心电图 诊断关系 0.50 0.85 0.68
心肌灌注显像 诊断关系 0.50 0.79 0.65
肌钙蛋白T 诊断关系 0.50 0.79 0.65
血管造影 诊断关系 0.33 0.84 0.59
  融合语义关联强度与共现相似度后的“冠心病”知识元链接(部分)
  UGC文本中的知识元链接标引示例
  典型的知识元内容页示例
[1] Xu K, Chen Y, Jiang Y, et al.A Comparative Study of Correlation Measurements for Searching Similar Tags[C]// Proceedings of International Conference on Advanced Data Mining and Applications. Springer Berlin Heidelberg, 2008: 709-716.
[2] 易明, 王学东, 邓卫华. 基于社会网络分析的社会化标签网络分析与个性化信息服务研究[J]. 中国图书馆学报, 2010, 36(2): 107-114.
[2] (Yi Ming, Wang Xuedong, Deng Weihua.A Research on the Tag Network Analysis Based on Social Network Analysis (SNA) and the Personalized Information Service[J]. Journal of Library Science in China, 2010, 36(2): 107-114.)
[3] 杨萌, 张云中, 徐宝祥. 社会化标注系统资源聚合与导航研究综述[J]. 情报理论与实践, 2014, 37(3): 140-144.
[3] (Yang Meng, Zhang Yunzhong, Xu Baoxiang.Review of Resources Aggregation and Navigation of Social Tagging System[J]. Information Studies: Theory & Application, 2014, 37(3): 140-144.)
[4] Angeletou S.Semantic Enrichment of Folksonomy Tagspaces[C]//Proceedings of International Semantic Web Conference. Springer Berlin Heidelberg, 2008.
[5] Specia L, Motta E.Integrating Folksonomies with the Semantic Web[C]//Proceedings of European Semantic Web Conference 2007: The Semantic Web: Research and Applications. 2007: 624-639.
[6] Wang L, Jia Y, Han W.Instant Message Clustering Based on Extended Vector Space Model[C]//Proceedings of the 2nd International Symposium on Intelligence Computation and Applications (ISICA 2007), Wuhan, China. 2007: 435-443.
[7] 唐晓波, 肖璐. 基于依存句法分析的微博主题挖掘模型研究[J]. 情报科学, 2015, 33(9): 61-65.
[7] (Tang Xiaobo, Xiao Lu.Research on Micro-Blog Topics Mining Model on Dependency Parsing[J]. Information Science, 2015, 33(9): 61-65.)
[8] 马慧芳, 曾宪桃, 李晓红,等. 改进的频繁词集短文本特征扩展方法[J]. 计算机工程, 2016, 42(10): 213-218.
doi: 10.3969/j.issn.1000-3428.2016.10.037
[8] (Ma Huifang, Zeng Xiantao, Li Xiaohong, et al.Short Text Feature Extension Method of Improved Frequent Term Set[J]. Computer Engineering, 2016, 42(10): 213-218.)
doi: 10.3969/j.issn.1000-3428.2016.10.037
[9] 李湘东, 曹环, 丁丛, 等. 利用《知网》和领域关键词集扩展方法的短文本分类研究[J]. 现代图书情报技术, 2015(2): 31-38.
[9] (Li Xiangdong, Cao Huan, Ding Cong, et al.Short-text Classification Based on HowNet and Domain Keyword Set Extension[J]. New Technology of Library and Information Service, 2015(2): 31-38.)
[10] He H, Chen B, Xu W, et al.Short Text Feature Extraction and Clustering for Web Topic Mining[C]//Proceedings of the 3rd International Conference on Semantics, Knowledge and Grid. IEEE, 2007: 382-385.
[11] 贺涛, 曹先彬, 谭辉. 基于免疫的中文网络短文本聚类算法[J]. 自动化学报, 2009, 35(7): 896-902.
doi: 10.3724/SP.J.1004.2009.00896
[11] (He Tao, Cao Xianbin, Tan Hui.An Immune Based Algorithm for Chinese Network Short Text Clustering[J]. Acta Automatical Sinica, 2009, 35(7): 896-902.)
doi: 10.3724/SP.J.1004.2009.00896
[12] 金春霞, 周海岩. 动态向量的中文短文本聚类[J]. 计算机工程与应用, 2011, 47(33): 156-158.
doi: 10.3778/j.issn.1002-8331.2011.33.046
[12] (Jin Chunxia, Zhou Haiyan.Chinese Short Text Clustering Based on Dynamic Vector[J]. Computer Engineering and Applications, 2011, 47(33): 156-158.)
doi: 10.3778/j.issn.1002-8331.2011.33.046
[13] 田博, 凡玲玲. 基于交互行为的在线社会网络社区发现方法研究[J]. 情报杂志, 2016, 35(11): 183-188.
doi: 10.3969/j.issn.1002-1965.2016.11.033
[13] (Tian Bo, Fan Lingling.New Method of Community Detection for Online Social Networks Based on Interactive Behaviors[J]. Journal of Intelligence, 2016, 35(11): 183-188.)
doi: 10.3969/j.issn.1002-1965.2016.11.033
[14] 孙怡帆, 李赛. 基于相似度的微博社交网络的社区发现方法[J]. 计算机研究与发展, 2014, 51(12): 2797-2807.
doi: 10.7544/issn1000-1239.2014.20131209
[14] (Sun Yifan, Li Sai.Similarity-based Community Detection in Social Network of Microblog[J]. Journal of Computer Research and Development, 2014, 51(12): 2797-2807.)
doi: 10.7544/issn1000-1239.2014.20131209
[15] 刘冰玉, 王翠荣, 王聪, 等. 基于动态主题模型融合多维数据的微博社区发现算法[J]. 软件学报, 2017, 28(2): 246-261.
doi: 10.13328/j.cnki.j0s.005116
[15] (Liu Bingyu, Wang Cuirong, Wang Cong, et al.Microblog Community Discovery Algorithm Based on Dynamic Topic Model with Multidimensional Data Fusion[J]. Journal of Software, 2017, 28(2): 246-261.)
doi: 10.13328/j.cnki.j0s.005116
[16] 曾建勋. 知识链接的研究现状与发展趋势[J]. 情报理论与实践, 2011, 34(2): 119-123.
[16] (Zeng Jianxun.Research and Development of Knowledge Linking[J]. Information Studies: Theory & Application, 2011, 34(2): 119-123.)
[17] 贺德方. 知识链接发展的历史、未来和行动[J]. 现代图书情报技术, 2005(3): 11-15.
[17] (He Defang.Knowledge Linking: History, Future and Action[J]. New Technology of Library and Information Service, 2005(3): 11-15.)
[18] 滕广青, 毕强. 知识组织体系的演进路径及相关研究的发展趋势探析[J]. 中国图书馆学报, 2010, 36(5): 49-53.
[18] (Teng Guangqing, Bi Qiang.Research and Development of Knowledge Organization System[J]. Journal of Library Science in China, 2010, 36(5): 49-53.)
[19] 王知津. 从情报组织到知识组织[J]. 情报学报, 1998, 17(3): 230-234.
doi: 10.3969/j.issn.1000-0135.1998.03.012
[19] (Wang Zhijin.From Information Organization to Knowledge Organization[J]. Journal of the China Society for Scientific and Technical Information, 1998, 17(3): 230-234.)
doi: 10.3969/j.issn.1000-0135.1998.03.012
[20] 姜永常, 杨宏岩, 张丽波. 基于知识元的知识组织及其系统服务功能研究[J]. 情报理论与实践, 2007, 30(1): 37-40.
doi: 10.3969/j.issn.1000-7490.2007.01.011
[20] (Jiang Yongchang, Yang Hongyan, Zhang Libo.Research on Knowledge Organization Based on Knowledge Elements and the Service Functionality[J]. Information Studies: Theory & Application, 2007, 30(1): 37-40.)
doi: 10.3969/j.issn.1000-7490.2007.01.011
[21] 陈果. 基于领域概念关联的网络社区知识聚合研究[D]. 武汉: 武汉大学, 2015.
[21] (Chen Guo.Research on the Knowledge Aggregation in Network Community Based on Domain Conceptual Relations[D]. Wuhan: Wuhan University, 2015.)
[22] Medelyan O, Milne D, Legg C, et al.Mining Meaning from Wikipedia[J]. International Journal of Human-Computer Studies, 2008, 67(9): 716-754.
[23] Clauson K A, Polen H H, Boulos M N, et al.Scope, Completeness, and Accuracy of Drug Information in Wikipedia[J]. Annals of Pharmacotherapy, 2008, 42(12): 1814-1821.
doi: 10.1345/aph.1L474 pmid: 19017825
[24] 常春, 吴雯娜, 曾建勋. 基于后方一致获取词间关系[J]. 情报科学, 2009, 27(7): 1085-1088.
[24] (Chang Chun, Wu Wenna, Zeng Jianxun.Based on Same End in Terms to Acquire Concept Relations[J]. Information Science, 2009, 27(7): 1085-1088.)
[25] 叶圣俊, 孙济庆, 李楠. 基于词素的中文术语语义关联研究[J]. 图书馆杂志, 2017, 36(1): 80-87.
[25] (Ye Shengjun, Sun Jiqing, Li Nan.Research on Semantic Relationship Correlation of Chinese Terminology Based on Morpheme Theory[J]. Library Journal, 2017, 36(1): 80-87.)
[26] Hearst M A.Automatic Acquisition of Hyponyms from Large Text Corpora[C]//Proceedings of the 14th International Conference on Computational Linguistics.1992: 539-545.
[27] 谷俊, 严明, 王昊. 基于改进关联规则的本体关系获取研究[J]. 情报理论与实践, 2011, 34(12): 121-125.
[27] (Gu Jun, Yan Ming, Wang Hao.Research on Ontology Relation Acquisition Based on Improved Association Rules[J]. Information Studies: Theory & Application, 2011, 34(12): 121-125. )
[28] Rada R, Mili H, Bicknell E, et al.Development and Application of a Metric on Semantic Nets[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1989, 19(1): 17-30.
doi: 10.1109/21.24528
[29] Richardson R, Smeaton A, Murphy J.Using WordNet as a Knowledge Base for Measuring Semantic Similarity Between Words[R]. Technical Report Working Paper CA-1294, School of Computer Applications, Dublin City University, 1994.
[30] Lord P W, Stevens R D, Brass A, et al.Investigating Semantic Similarity Measures Across the Gene Ontology: The Relationship Between Sequence and Annotation[J]. Bioinformatics, 2003, 19(10): 1275-1283.
doi: 10.1093/bioinformatics/btg153 pmid: 12835272
[31] Resnik O.Semantic Similarity in a Taxonomy: An Information-Based Measure and Its Application to Problems of Ambiguity and Natural Language[J]. Journal of Artificial Intelligence Research, 1999(11): 95-130.
doi: 10.1613/jair.514
[32] Knappe R, Bulskov H, Andreasen T.On Similarity Measures for Content-based Querying[C]//Proceedings of the 10th International Fuzzy Systems Association World Congress. 2003: 400-403.
[33] 胡昌平, 陈果. 共词分析中的词语贡献度特征选择研究[J]. 现代图书情报技术, 2013(7): 89-93.
[33] (Hu Changping, Chen Guo.A New Feature Selection Method Based on Term Contribution in Co-word Analysis[J]. New Technology of Library and Information Service, 2013(7): 89-93.)
[34] 39疾病百科-心血管内科疾病[EB/OL]. [2016-10-10]. .
[34] (39 Wiki of Diseases-Cardiovascular Diseases [EB/OL]. [2016-10-10].
[35] 39疾病百科-高血压疾病知识[EB/OL]. [2016-10-10]. .
[35] (39 Wiki of Diseases-Hypertension [EB/OL]. [2016-10-10].
[36] NLPIR汉语分词系统[EB/OL]. [2016-05-10]. .
[36] (The NLPIR Chinese Word Segmentation System [EB/OL]. [2016-05-10].
[1] 孙海霞,邓盼盼,李姣,沈柳,钱庆. 面向多源词表整合的概念自动更新策略研究*[J]. 数据分析与知识发现, 2020, 4(1): 121-130.
[2] 谢靖,王敬东,吴振新,张智雄,王颖,叶志飞. 科技文献检索系统语义丰富化框架的设计与实践*[J]. 数据分析与知识发现, 2017, 1(4): 84-93.
[3] 丁恒,陆伟. 标准文献知识服务系统设计与实现*[J]. 现代图书情报技术, 2016, 32(7-8): 120-128.
[4] 付鸿鹄, 张智雄, 刘建华, 钱力, 王颖. 构建STKOS术语发布与共享服务平台[J]. 现代图书情报技术, 2015, 31(9): 76-81.
[5] 刘丹军, 付鸿鹄, 文奕, 胡正银, 杨宁, 向彬, 钱力, 刘春江. 科技知识组织体系版本管理系统设计与实践应用[J]. 现代图书情报技术, 2015, 31(4): 79-86.
[6] 王颖, 张智雄, 李传席, 刘毅, 汤怡洁, 周子健, 钱力, 付鸿鹄. 科技知识组织体系开放引擎系统的设计与实现[J]. 现代图书情报技术, 2015, 31(10): 95-101.
[7] 曾新红, 蔡庆河, 黄华军, 林伟明. 基于力导向模型的非一致节点群组布局可视化算法研究[J]. 现代图书情报技术, 2014, 30(9): 33-43.
[8] 王传清, 毕强. 数字图书馆自动化语义标注工具系统模型研究[J]. 现代图书情报技术, 2014, 30(6): 17-24.
[9] 李晓瑛, 李丹亚, 钱庆, 孙海霞, 李军莲, 胡铁军. 面向知识组织系统整合的英文同义关系自动发现算法研究*[J]. 现代图书情报技术, 2014, 30(5): 26-32.
[10] 李鹏, 朱礼军, 刘亚洁, 闫莹莹. 一种改进RBAC模型在规范概念协同工作平台任务管理中的实现[J]. 现代图书情报技术, 2014, 30(2): 86-91.
[11] 谢靖, 钱爱兵, 韩普, 苏新宁. 面向知识服务的知识组织工具:现状与未来[J]. 现代图书情报技术, 2013, 29(9): 8-14.
[12] 张运良, 张兆锋, 张晓丹, 许德山. 使用D3.js的知识组织系统Web动态交互可视化功能实现[J]. 现代图书情报技术, 2013, 29(7/8): 127-131.
[13] 宋培彦, 李静静, 赵星. 跨语言术语同义关系推荐方法及其实证[J]. 现代图书情报技术, 2013, (5): 40-45.
[14] 李亚子, 孙海霞, 蒋君, 钱庆. 协同工作系统中用户角色的设计与实施[J]. 现代图书情报技术, 2013, 29(2): 77-81.
[15] 张鹏翼, 瞿艳, 黄晨. 科技创新集群及环境本体的设计和应用[J]. 现代图书情报技术, 2013, (12): 42-47.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn