Please wait a minute...
Advanced Search
数据分析与知识发现  2016, Vol. 32 Issue (12): 50-56    DOI: 10.11925/infotech.1003-3513.2016.12.07
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于关联规则的文本主题深度挖掘应用研究*
阮光册(),夏磊
华东师范大学信息管理系 上海 200241
上海图书馆 上海 200031
Mining Document Topics Based on Association Rules
Guangce Ruan(),Lei Xia
Department of Information Management, East China Normal University, Shanghai 200241, China
Shanghai Library, Shanghai 200031, China
全文: PDF(1491 KB)   HTML ( 55
输出: BibTeX | EndNote (RIS)      
摘要 

目的】准确理解文本信息中潜在的知识关联, 丰富文本知识挖掘的方法。【方法】将主题模型和关联规则相结合, 运用LDA主题模型抽取文本中的主题集合, 在实现文本降维的同时, 实现文本在语义空间的表达; 通过关联规则进一步挖掘文本中主题的语义关联。【结果】设置合理的支持度和置信度阈值, 可以有效地挖掘文本中潜在知识的关联, 实现对文本的深入“理解”。【局限】数据预处理过程中, 用户自定义词典的设计会对实验结果产生一定的影响。【结论】提出一种非结构化文本信息潜在语义关联挖掘的新思路, 改善了针对文本信息知识发现的效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
夏磊
阮光册
关键词 关联规则主题模型文本主题    
Abstract

[Objective]This study is to accurately identify potential knowledge correlations among textual information, and then enrich the methodology of knowledge mining. [Methods] First, we combined the topic model and association rules. Second, used the LDA model to extract topic set from the texts, which not only reduced the textual dimension but also realized the semantic space expression. Finally, we analyzed the semantic ties among the topics with association rules. [Results] We effectively found the potential knowledge association from the document texts with reasonable degrees of support and confidence, and then improved model’s “understanding” of the textual message. [Limitations] While preprocessing data, the self-defined dictionary posed some negative effects to the results. [Conclusions] The proposed method could extract the latent semantic association from unstructured textual information, and then improve the performance of knowledge discovery systems.

Key wordsAssociation rules    Topic model    Text topics
收稿日期: 2016-09-07     
基金资助:*本文系上海哲学社会科学一般项目“基于主题模型的学科交叉知识发现研究”(项目编号: 2016BTQ002)的研究成果之一
引用本文:   
阮光册, 夏磊. 基于关联规则的文本主题深度挖掘应用研究*[J]. 数据分析与知识发现, 2016, 32(12): 50-56.
Guangce Ruan, Lei Xia. Mining Document Topics Based on Association Rules. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.1003-3513.2016.12.07.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2016.12.07
[1] Lazer D, Pentland A, Adamie L, et al.Computational Social Science[J]. Science, 2009, 323(5915): 721-723.
[2] Salton G, Wong A, Yang C.A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.
[3] Ponte J M, Croft W B.A Language Modeling Approach to Information Retrieval [C]. In: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.1998: 275-281.
[4] Agrawal R, Imieliński T, Swami A.Mining Association Rules Betweensets of Items in Large Databases[C]. In: Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data. 1993: 207-216.
[5] 王鉴全, 季绍波. 基于关联规则的自动构词算法研究[J]. 计算机科学, 2014, 41(11): 256-259.
[5] (Wang Jianquan, Ji Shaobo.Research and Application on Auto-word Building[J]. Computer Science, 2014, 41(11): 256-259.)
[6] 何玉, 冯剑琳, 王元珍. 基于最大关联规则的文本分类[J]. 计算机科学, 2006, 33(11): 143-145.
[6] (He Yu, Feng Jianlin, Wang Yuanzhen.Text Classification Based on Maximal Association Rule[J]. Computer Science, 2006, 33(11): 143-145.)
[7] Cherfi H, Napoli A, Toussaint Y.Towards a Text Mining Methodology Using Association Rule Extraction[J]. Soft Computing, 2006, 10: 431-441.
[8] Sekhavat Y A, Hoeber O.Visualizing Association Rules Using Linked Matrix, Graph, and Detail Views[J]. International Journal of Intelligence Science, 2013, 3(1): 34-49.
[9] 刘菲, 黄萱菁, 吴立德. 利用关联规则挖掘文本主题词的方法[J]. 计算机工程, 2008, 34(7): 81-83.
[9] (Liu Fei, Huang Xuanjing, Wu Lide.Approach for Extracting Thematic Terms Based on Association Rules[J]. Computer Engineering, 2008, 37(4): 81-83.)
[10] Maedche A, Staab S.Discovering Conceptual Relations from Text [C]. In: Proceedings of the 14th European Conference on Artificial Intelligence (ECAI), Berlin, Germany. 2000: 321-325.
[11] Schutz A, Buitelaar P.RelExt: A Tool for Relation Extraction from Text in Ontology Extension [C]. In: Proceedings of the 4th International Semantic Web Conference. 2005: 593-606.
[12] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3(3): 993-1022.
[13] Zaki M J.Scalable Algorithm for Association Mining[J]. IEEE Transactions on Knowledge and Data Engineering, 2000, 12(3): 372-390.
[14] 吴永梁, 陈炼. 基于改善度计算的有效关联规则[J]. 计算机工程, 2003, 29(8): 98-100.
[14] (Wu Yongliang, Chen Lian.Valid Association Rules Based on Lift-calculation[J]. 2003, 29(8): 98-100.)
[1] 曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题关键词提取方法 *[J]. 数据分析与知识发现, 2019, 3(7): 52-60.
[2] 张勇,李树青,程永上. 基于频次有效长度的加权关联规则挖掘算法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 85-93.
[3] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[4] 席林娜,窦永香. 基于计划行为理论的微博用户转发行为影响因素研究*[J]. 数据分析与知识发现, 2019, 3(2): 13-20.
[5] 张杰,赵君博,翟东升,孙宁宁. 基于主题模型的微藻生物燃料产业链专利技术分析*[J]. 数据分析与知识发现, 2019, 3(2): 52-64.
[6] 刘俊婉,龙志昕,王菲菲. 基于LDA主题模型与链路预测的新兴主题关联机会发现研究*[J]. 数据分析与知识发现, 2019, 3(1): 104-117.
[7] 杨贵军,徐雪,赵富强. 基于XGBoost算法的用户评分预测模型及应用*[J]. 数据分析与知识发现, 2019, 3(1): 118-126.
[8] 何跃,丰月,赵书朋,马玉凤. 基于知乎问答社区的内容推荐研究——以物流话题为例[J]. 数据分析与知识发现, 2018, 2(9): 42-49.
[9] 张涛,马海群. 一种基于LDA主题模型的政策文本聚类方法研究*[J]. 数据分析与知识发现, 2018, 2(9): 59-65.
[10] 俞琰,赵乃瑄. 加权专利文本主题模型研究*[J]. 数据分析与知识发现, 2018, 2(4): 81-89.
[11] 王丽,邹丽雪,刘细文. 基于LDA主题模型的文献关联分析及可视化研究[J]. 数据分析与知识发现, 2018, 2(3): 98-106.
[12] 李贺,祝琳琳,闫敏,刘金承,洪闯. 开放式创新社区用户信息有用性识别研究*[J]. 数据分析与知识发现, 2018, 2(12): 12-22.
[13] 何伟林,奉国和,谢红玲. 基于CSToT模型的科技文献主题发现与演化研究*[J]. 数据分析与知识发现, 2018, 2(11): 64-72.
[14] 王婷婷,王宇,秦琳杰. 基于动态主题模型的时间窗口划分研究*[J]. 数据分析与知识发现, 2018, 2(10): 54-64.
[15] 王婷婷,韩满,王宇. LDA模型的优化及其主题数量选择研究*——以科技文献为例[J]. 数据分析与知识发现, 2018, 2(1): 29-40.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn