Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (5): 18-25    DOI: 10.11925/infotech.1003-3513.2014.05.03
  数字图书馆 本期目录 | 过刊浏览 | 高级检索 |
LDA模型下书目信息分类系统的研究与实现
李湘东1, 廖香鹏1, 黄莉2
1 武汉大学信息管理学院 武汉 430072;
2 武汉大学图书馆 武汉 430072
Research and Implementation of Bibliographic Information Classification System in LDA Model
Li Xiangdong1, Liao Xiangpeng1, Huang Li2
1 School of Information Management, Wuhan University, Wuhan 430072, China;
2 Wuhan University Library, Wuhan 430072, China
全文: PDF(1706 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】改善图书和期刊论文等的书目信息的分类性能。【应用背景】采用传统向量空间模型对图书和期刊论文等书目信息分类的效果不理想, 通过LDA模型挖掘文本隐含语义信息, 能有效提高分类效果。【方法】通过LDA建模, 用隐含主题表示文本并通过分类效果确定最优主题数, 在此基础上采用SVM算法分类。【结果】实验表明, 在复旦和Sogou公开语料库中的Macro_F1分别达到95.5%和93.5%; 在馆藏目录及电子期刊数据库等真实书目数据中的Macro_F1分别达到77.4%和87.6%。【结论】在真实数据上的分类性能比传统向量空间模型分别提高10%和3%, 达到实用水平。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李湘东
黄莉
廖香鹏
关键词 LDA模型文本分类向量空间模型Gibbs抽样SVM    
Abstract

[Objective] To improve the classification effect of bibliographic information of books and journal articles etc. [Context] The classification performance under the traditional vector space model is not satisfied, and LDA model can effectively improve the classification effect by mining the implied semantic information. [Methods] Using LDA model to represent each text with implied topics, the optimal number of topics is determined on the classification result.Then the SVM classification algorithm is used. [Results] Experiments show that the Macro_F1 in Fudan and Sogou corpus reach 95.5% and 93.5% respectively; the Macro_F1 on the real data from catalogue and electronic journal database reach 77.4% and 87.6% respectively. [Conclusions] The classification performance on real data is increased by 10% and 3% respectively compared to the VSM, that reaches the practical level.

Key wordsLatent Dirichlet Allocation    Text categorization    Vector Space Model    Gibbs sampling    Support Vector Machine
收稿日期: 2014-01-02     
:  TP181  
通讯作者: 黄莉 E-mail:huangcomplete@gmail.com   
作者简介: 李湘东: 负责提出研究思路, 设计研究方案; 黄莉: 采集和分析实验所需真实数据; 廖香鹏: 进行实验; 论文起草、初稿撰写; 李湘东, 黄莉: 论文审阅和最终版本修订。
引用本文:   
李湘东, 廖香鹏, 黄莉. LDA模型下书目信息分类系统的研究与实现[J]. 现代图书情报技术, 2014, 30(5): 18-25.
Li Xiangdong, Liao Xiangpeng, Huang Li. Research and Implementation of Bibliographic Information Classification System in LDA Model. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2014.05.03.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.05.03

[1] Deerwester S, Dumais S, Furnas G W, et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
[2] Hofmann T.Probabilistic Latent Semantic Indexing [C]. In: Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, California, United States. New York: ACM, 1999: 50-57.
[3] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[4] 刁宇峰, 杨亮, 林鸿飞. 基于LDA模型的博客垃圾评论发现[J]. 中文信息学报, 2011, 25(1): 41-47. (Diao Yufeng, Yang Liang, Lin Hongfei. LDA-Based Opinion Spam Discovering[J]. Journal of Chinese Information Processing, 2011, 25(1): 41-47.)
[5] 黄小亮, 郁抒思, 关佶红. 基于LDA主题模型的软件缺陷分派方法[J]. 计算机工程, 2011, 37(21):46-48. (Huang Xiaoliang, Yu Shusi, Guan Jihong. Software Bug Triage Method Based on LDA Topic Model[J]. Computer Engineering, 2011, 37(21): 46-48.)
[6] 廖晓锋, 王永吉, 范修斌, 等. 基于LDA主题模型的安全漏洞分类[J]. 清华大学学报:自然科学版, 2012, 52(10): 1351-1355. (Liao Xiaofeng, Wang Yongji, Fan Xiubin, et al. National Security Vulnerability Database Classification Based on an LDA Topic Model[J]. Journal of Tsinghua University: Science and Technology, 2012, 52(10): 1351-1355.)
[7] 孙李斌, 马贤明, 赵明明. 基于LDA 主题模型的遥感图像表示与分类[J]. 科技视界, 2013(7): 58-59. (Sun Libin, Ma Xianming, Zhao Mingming. Remote Sensing Image Representation and Classification Based on LDA Topic Model[J]. Science & Technology Vision, 2013(7): 58-59.)
[8] 张志飞, 苗夺谦, 高灿. 基于LDA主体模型的短文本分类方法[J]. 计算机应用, 2013, 33(6): 1587-1590. (Zhang Zhifei, Miao Duoqian, Gao Can. Short Text Classification Using Latent Dirichlet Allocation[J]. Journal of Computer Applications, 2013, 33(6): 1587-1590.)
[9] Phan X, Nguyen M, Horiguchi S. Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections [C]. In: Proceedings of the 17th Conference on World Wide Web. New York: ACM, 2008: 91-100.
[10] Dempster A P, Laird N M, Rubin D B. Maximum Likelihood from Incomplete Data via the EM Algorithm[J]. Journal of the Royal Statistical Society, 1977, 39(l): 1-38.
[11] Griffiths T L, Steyvers M. Finding Scientific Topics[J].PNAS, 2004, 101(S1): 5228-5235.
[12] Griffiths T. Gibbs Sampling in the Generative Model of Latent Dirichlet Allocation [R]. Stanford University, 2002.
[13] 姚全珠, 宋志理, 彭程. 基于LDA模型的文本分类研究[J].计算机工程与应用, 2011, 47(13): 150-153. (Yao Quanzhu, Song Zhili, Peng Cheng.Research on Text Categorization Based on LDA[J]. Computer Engineering and Applications, 2011, 47(13): 150-153.)
[14] 曹娟, 张勇东, 李锦涛, 等. 一种基于密度的自适应最优LDA模型选择方法[J]. 计算机学报, 2008, 31(10): 1780-1787. (Cao Juan, Zhang Yongdong, Li Jintao, et al. A Method of Adaptively Selecting Best LDA Model Based on Density[J]. Chinese Journal of Computers, 2008, 31(10): 1780-1787.)
[15] 孙世杰, 濮建忠. 基于LDA模型的Twitter中文微博热点主题词组发现[J]. 洛阳师范学院学报, 2012, 31(11): 60-64. (Sun Shijie, Pu Jianzhong. A Hot Topic Phrase Selection Based on LDA for Chinese Tweets[J]. Journal of Luoyang Normal University, 2012, 31(11): 60-64.)

[1] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[2] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[3] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[4] 何跃,丰月,赵书朋,马玉凤. 基于知乎问答社区的内容推荐研究——以物流话题为例[J]. 数据分析与知识发现, 2018, 2(9): 42-49.
[5] 徐艳华,苗雨洁,苗琳,吕学强. 基于LDA模型的HSK作文生成*[J]. 数据分析与知识发现, 2018, 2(9): 80-87.
[6] 李心蕾,王昊,刘小敏,邓三鸿. 面向微博短文本分类的文本向量化方法比较研究*[J]. 数据分析与知识发现, 2018, 2(8): 41-50.
[7] 李琳,李辉. 一种基于概念向量空间的文本相似度计算方法[J]. 数据分析与知识发现, 2018, 2(5): 48-58.
[8] 刘浏,王东波. 基于论文自动分类的社科类学科跨学科性研究*[J]. 数据分析与知识发现, 2018, 2(3): 30-38.
[9] 王璟琦,李锐,吴华意. 基于空间自相关的网络舆情话题演化时空规律分析*[J]. 数据分析与知识发现, 2018, 2(2): 64-73.
[10] 冯国明,张晓冬,刘素辉. 基于CapsNet的中文文本分类研究*[J]. 数据分析与知识发现, 2018, 2(12): 68-76.
[11] 赵杨,李齐齐,陈雨涵,曹文航. 基于在线评论情感分析的海淘APP用户满意度研究*[J]. 数据分析与知识发现, 2018, 2(11): 19-27.
[12] 李真,丁晟春,王楠. 网络舆情观点主题识别研究*[J]. 数据分析与知识发现, 2017, 1(8): 18-30.
[13] 白如江,冷伏海,廖君华. 一种基于语义组块特征的改进Cosine文本相似度计算方法*[J]. 数据分析与知识发现, 2017, 1(6): 56-64.
[14] 尹相权,李书宁. 基于VSM的美国一流大学图书馆网站导航文本调查与分析[J]. 数据分析与知识发现, 2017, 1(3): 90-95.
[15] 方小飞,黄孝喜,王荣波,谌志群,王小华. 基于LDA模型的移动投诉文本热点话题识别*[J]. 数据分析与知识发现, 2017, 1(2): 19-27.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn