Please wait a minute...
Advanced Search
数据分析与知识发现  2016, Vol. 32 Issue (12): 50-56     https://doi.org/10.11925/infotech.1003-3513.2016.12.07
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于关联规则的文本主题深度挖掘应用研究*
阮光册(),夏磊
华东师范大学信息管理系 上海 200241
上海图书馆 上海 200031
Mining Document Topics Based on Association Rules
Guangce Ruan(),Lei Xia
Department of Information Management, East China Normal University, Shanghai 200241, China
Shanghai Library, Shanghai 200031, China
全文: PDF (1491 KB)   HTML ( 58
输出: BibTeX | EndNote (RIS)      
摘要 

目的】准确理解文本信息中潜在的知识关联, 丰富文本知识挖掘的方法。【方法】将主题模型和关联规则相结合, 运用LDA主题模型抽取文本中的主题集合, 在实现文本降维的同时, 实现文本在语义空间的表达; 通过关联规则进一步挖掘文本中主题的语义关联。【结果】设置合理的支持度和置信度阈值, 可以有效地挖掘文本中潜在知识的关联, 实现对文本的深入“理解”。【局限】数据预处理过程中, 用户自定义词典的设计会对实验结果产生一定的影响。【结论】提出一种非结构化文本信息潜在语义关联挖掘的新思路, 改善了针对文本信息知识发现的效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
夏磊
阮光册
关键词 关联规则主题模型文本主题    
Abstract

[Objective]This study is to accurately identify potential knowledge correlations among textual information, and then enrich the methodology of knowledge mining. [Methods] First, we combined the topic model and association rules. Second, used the LDA model to extract topic set from the texts, which not only reduced the textual dimension but also realized the semantic space expression. Finally, we analyzed the semantic ties among the topics with association rules. [Results] We effectively found the potential knowledge association from the document texts with reasonable degrees of support and confidence, and then improved model’s “understanding” of the textual message. [Limitations] While preprocessing data, the self-defined dictionary posed some negative effects to the results. [Conclusions] The proposed method could extract the latent semantic association from unstructured textual information, and then improve the performance of knowledge discovery systems.

Key wordsAssociation rules    Topic model    Text topics
收稿日期: 2016-09-07      出版日期: 2017-01-22
基金资助:*本文系上海哲学社会科学一般项目“基于主题模型的学科交叉知识发现研究”(项目编号: 2016BTQ002)的研究成果之一
引用本文:   
阮光册, 夏磊. 基于关联规则的文本主题深度挖掘应用研究*[J]. 数据分析与知识发现, 2016, 32(12): 50-56.
Guangce Ruan, Lei Xia. Mining Document Topics Based on Association Rules. Data Analysis and Knowledge Discovery, 2016, 32(12): 50-56.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2016.12.07      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2016/V32/I12/50
[1] Lazer D, Pentland A, Adamie L, et al.Computational Social Science[J]. Science, 2009, 323(5915): 721-723.
[2] Salton G, Wong A, Yang C.A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.
[3] Ponte J M, Croft W B.A Language Modeling Approach to Information Retrieval [C]. In: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.1998: 275-281.
[4] Agrawal R, Imieliński T, Swami A.Mining Association Rules Betweensets of Items in Large Databases[C]. In: Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data. 1993: 207-216.
[5] 王鉴全, 季绍波. 基于关联规则的自动构词算法研究[J]. 计算机科学, 2014, 41(11): 256-259.
[5] (Wang Jianquan, Ji Shaobo.Research and Application on Auto-word Building[J]. Computer Science, 2014, 41(11): 256-259.)
[6] 何玉, 冯剑琳, 王元珍. 基于最大关联规则的文本分类[J]. 计算机科学, 2006, 33(11): 143-145.
[6] (He Yu, Feng Jianlin, Wang Yuanzhen.Text Classification Based on Maximal Association Rule[J]. Computer Science, 2006, 33(11): 143-145.)
[7] Cherfi H, Napoli A, Toussaint Y.Towards a Text Mining Methodology Using Association Rule Extraction[J]. Soft Computing, 2006, 10: 431-441.
[8] Sekhavat Y A, Hoeber O.Visualizing Association Rules Using Linked Matrix, Graph, and Detail Views[J]. International Journal of Intelligence Science, 2013, 3(1): 34-49.
[9] 刘菲, 黄萱菁, 吴立德. 利用关联规则挖掘文本主题词的方法[J]. 计算机工程, 2008, 34(7): 81-83.
[9] (Liu Fei, Huang Xuanjing, Wu Lide.Approach for Extracting Thematic Terms Based on Association Rules[J]. Computer Engineering, 2008, 37(4): 81-83.)
[10] Maedche A, Staab S.Discovering Conceptual Relations from Text [C]. In: Proceedings of the 14th European Conference on Artificial Intelligence (ECAI), Berlin, Germany. 2000: 321-325.
[11] Schutz A, Buitelaar P.RelExt: A Tool for Relation Extraction from Text in Ontology Extension [C]. In: Proceedings of the 4th International Semantic Web Conference. 2005: 593-606.
[12] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3(3): 993-1022.
[13] Zaki M J.Scalable Algorithm for Association Mining[J]. IEEE Transactions on Knowledge and Data Engineering, 2000, 12(3): 372-390.
[14] 吴永梁, 陈炼. 基于改善度计算的有效关联规则[J]. 计算机工程, 2003, 29(8): 98-100.
[14] (Wu Yongliang, Chen Lian.Valid Association Rules Based on Lift-calculation[J]. 2003, 29(8): 98-100.)
[1] 伊惠芳,刘细文. 一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J]. 数据分析与知识发现, 2021, 5(4): 25-36.
[2] 张鑫,文奕,许海云. 一种融合表示学习与主题表征的作者合作预测模型*[J]. 数据分析与知识发现, 2021, 5(3): 88-100.
[3] 赵天资, 段亮, 岳昆, 乔少杰, 马子娟. 基于Biterm主题模型的新闻线索生成方法 *[J]. 数据分析与知识发现, 2021, 5(2): 1-13.
[4] 陈浩, 张梦毅, 程秀峰. 融合主题模型与决策树的跨地区专利合作关系发现与推荐*——以广东省和武汉市高校专利库为例[J]. 数据分析与知识发现, 2021, 5(10): 37-50.
[5] 余传明,原赛,朱星宇,林虹君,张普亮,安璐. 基于深度学习的热点事件主题表示研究*[J]. 数据分析与知识发现, 2020, 4(4): 1-14.
[6] 李铁军,颜端武,杨雄飞. 基于情感加权关联规则的微博推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 27-33.
[7] 潘有能,倪秀丽. 基于Labeled-LDA模型的在线医疗专家推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 34-43.
[8] 魏伟,郭崇慧,邢小宇. 基于语义关联规则的试题知识点标注及试题推荐*[J]. 数据分析与知识发现, 2020, 4(2/3): 182-191.
[9] 陈文杰. 基于翻译模型的科研合作预测研究*[J]. 数据分析与知识发现, 2020, 4(10): 28-36.
[10] 凌洪飞,欧石燕. 面向主题模型的主题自动语义标注研究综述 *[J]. 数据分析与知识发现, 2019, 3(9): 16-26.
[11] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[12] 黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 *[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[13] 曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题关键词提取方法 *[J]. 数据分析与知识发现, 2019, 3(7): 52-60.
[14] 张勇,李树青,程永上. 基于频次有效长度的加权关联规则挖掘算法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 85-93.
[15] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn