Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (11): 51-59    DOI: 10.11925/infotech.1003-3513.2015.11.08
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
多媒体微博评论信息的主题发现算法研究
叶川, 马静
南京航空航天大学经济与管理学院 南京 211106
Research on Topic Discovery Algoritm of Multimedia Microblog Comments Information
Ye Chuan, Ma Jing
College of Economic and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China
全文: PDF(1386 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]发现微博中图片或视频等多媒体内容的主题特征。[应用背景]多媒体微博的文本内容普遍简短且主题通常蕴含在图片或视频等多媒体内容中, 传统的文本挖掘方法不适用于这种多媒体类微博。[方法]通过热点评论扩充该多媒体微博的文本空间, 并使用LDA主题模型进行分类推断与主题特征挖掘, 使用“主题标签–特征词”的形式表达微博多媒体内容的主题特征。[结果]使用爬虫工具采集的99 823条新浪微博构建训练集, 151条热门多媒体微博及其所有评论构建测试集进行实验, 构建的分类目录中标签完善, 主题标签推断准确率达到88.6%, 相关特征词挖掘准确率为76.0%。[结论]实验结果表明本文的算法可以有效且显著地发现多媒体微博的主题特征。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
Abstract

[Objective] This paper is aiming at discovering the topic of multimedia content such as images or videos in microblogs.[Context] The text content of multimedia microblogs is usually brief and the topic of such microblogs generally contains in its multimedia content such as images or videos, so the traditional text mining methods may not be applied to these cases.[Methods] Extend text space of the multimedia microblog through the use of hot comments. Then use LDA topic model to inference the classification and mine the topic features. Finally, express topic features of the multimedia mircoblog in the form of ‘topic tag -feature words'.[Results] Experiments by constructing the training set use 99 823 Sina microblogs collected by crawler tool set, and constructing the test set use 151 hot multimedia microblogs with all those comments. Results show that the classification directory built in this paper is complete, the topic tag infers with 88.6% accuracy, and the relevant feature word mining accuracy is 76.0%.[Conclusions] The experiment results show that the new algorithm can effectively and significantly discover topic features of multimedia microblogs.

收稿日期: 2015-07-06     
:  TP391  
  G35  
基金资助:

本文系国家自然科学基金项目“基于演化本体的网络舆情自适应跟踪方法研究”(项目编号:71373123)和江苏高校哲学社会科学研究重点项目“基于超网络的江苏教育微博舆情多元意见演化模型及应用研究”(项目编号:2015ZDIXM007)的研究成果之一。

通讯作者: 马静, ORCID: 0000-0001-8472-2518, E-mail: majing5525@126.com。     E-mail: majing5525@126.com
作者简介: 作者贡献声明:叶川: 提出研究思路和方案, 进行实验, 论文撰写与修订; 马静: 扩展研究思路, 论文审阅与修订。
引用本文:   
叶川, 马静. 多媒体微博评论信息的主题发现算法研究[J]. 现代图书情报技术, 2015, 31(11): 51-59.
Ye Chuan, Ma Jing. Research on Topic Discovery Algoritm of Multimedia Microblog Comments Information. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2015.11.08.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.11.08

[1] 中国互联网络信息中心. 中国互联网络发展状况统计报告[R/OL]. [2015-02-03]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/ hlwtjbg/201502/P020150203548852631921.pdf. (China Internet Network Information Center. The 35th Statistical Report on the Network Development of China Internet. [R/OL]. [2015-02-03]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201502/ P020150203548852631921.pdf.)
[2] 百度推视觉搜索引擎欲与谷歌一较高下[J]. 中国传媒科技, 2013, 6: 2. (Baidu Launches a Visual Search Engine to Compete with Google [J]. Science & Technology for China's Mass Media, 2013, 6: 2)
[3] 洪宇, 张宇, 刘挺, 等. 话题检测与跟踪的评测及研究综述[J]. 中文信息学报, 2007, 21(6): 71-87. (Hong Yu, Zhang Yu, Liu Ting, et al. Topic Detection and Tracking Review [J]. Journal of Chinese Information Processing, 2007, 21(6): 71-87.)
[4] Liu B. Web 数据挖掘[M]. 俞勇, 薛贵荣, 韩定一, 等译. 北京: 清华大学出版社, 2009:136-141. (Liu B. Web Data Mining [M]. Translated by Yu Yong, Xue Guirong, Han Dingyi, et al. Beijing: Tsinghua University Press, 2009: 136-141.)
[5] 徐戈, 王厚峰. 自然语言处理中主题模型的发展[J]. 计算机学报, 2011, 34(8): 1423-1436. (Xu Ge, Wang Houfeng. The Development of Topic Model in Natural Language Processing [J]. Chinese Journal of Computers, 2011, 34(8): 1423-1436.)
[6] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[7] Blei D M. Introduction to Probabilistic Topic Models [J]. Communications of the ACM, 2012,55(4): 77-84.
[8] Rosen-Zvi M, Griffiths T, Steyvers M, et al. The Author-Topic Model for Authors and Documents [C]. In: Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. 2004.
[9] Zhao W X, Jiang J, Weng J, et al. Comparing Twitter and Traditional Media Using Topic Models[C]. In: Proceedings of the 33rd European Conference on Information Retrieval Research, Dublin, Ireland. Springer Berlin Heidelberg, 2011: 338-349.
[10] 张晨逸, 孙建伶, 丁轶群. 基于MB-LDA模型的微博主题挖掘[J]. 计算机研究与发展, 2011, 48(10): 1795-1802. (Zhang Chenyi, Sun Jianling, Ding Yiqun. Topic Mining for Microblog Based on MB-LDA Model [J]. Journal of Computer Research and Development, 2011, 48(10): 1795-1802.)
[11] 唐晓波, 向坤. 基于LDA模型和微博热度的热点挖掘[J]. 图书情报工作, 2014, 58(5): 58-63. (Tang Xiaobo, Xiang Kun. Hot Spot Mining Based on LDA Model and Microblog Heat [J]. Library and Information Service, 2014, 58(5): 58-63.)
[12] 谢昊, 江红.一种面向微博主题挖掘的改进LDA模型[J]. 华东师范大学学报: 自然科学版, 2013(6): 93-101. (Xie Hao, Jiang Hong. Improved LDA Model for Microblog Topic Mining [J]. Journal of East China Normal University: Natural Sciences, 2013(6): 93-101.)
[13] 史存会, 林鸿飞. 追踪事件微博报道: 一种流的动态话题模型[J]. 山东大学学报: 理学版, 2012, 47 (5): 13-18. (Shi Cunhui, Lin Hongfei. Tracking Event Microblogs: A Streaming Dynamic Topic Model [J]. Journal of Shandong University: Natural Science, 2012, 47(5): 13-18.)
[14] 刁宇峰, 杨亮, 林鸿飞. 基于LDA模型的博客垃圾评论发现[J]. 中文信息学报, 2011, 25(1): 41-47. (Diao Yufeng, Yang Liang, Lin Hongfei. LDA-Based Opinion Spam Discovering [J]. Journal of Chinese Information Processing, 2011, 25(1): 41-47.)
[15] 吕韶华, 杨亮, 林鸿飞. 基于LDA模型的餐馆评论排序[J]. 计算机工程, 2011, 37(19): 62-67. (Lv Shaohua, Yang Liang, Lin Hongfei. Ranks of Restaurant Reviews Based on LDA Model [J]. Computer Engineering, 2011, 37(19): 62-67.)
[16] 阮光册. 基于LDA的网络评论主题发现研究[J]. 情报杂志, 2014, 33(3): 161-164. (Ruan Guangce. Topic Extraction Research of Net Reviews Based on Latent Dirichlet Allocation [J]. Journal of Information, 2014, 33(3): 161-164.)
[17] Ramage D, Dumais S, Liebling D. Characterizing Microblogs with Topic Models [C]. In: Proceedings of the 4th International AAAI Conference on Weblogs and Social Media. 2010.
[18] 王宇阳. 基于本体进化的自适应中文话题跟踪算法研究[D]. 南京: 南京航空航天大学, 2013. (Wang Yuyang. Research on Algorithm of Adaptive Chinese Topic Tracking Based on Ontology Evolution [D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2013.)
[19] 单斌, 李芳. 基于种子文档 LDA 话题的演化研究[J]. 现代图书情报技术, 2011(7-8): 104-109. (Shan Bin, Li Fang. Topic Evolution Based on Seminal Document and Topic Model [J]. New Technology of Library and Information Service, 2011(7-8): 104-109.)
[20] 邓爱林, 朱扬勇, 施伯乐. 基于项目评分预测的协同过滤推荐算法[J]. 软件学报, 2003, 14(9): 1621-1628. (Deng Ailin, Zhu Yangyong, Shi Bole. A Collaborative Filtering Recommendation Algorithm Based on Item Rating Prediction [J]. Journal of Software, 2003, 14(9): 1621-1628.)

[1] 李晓峰,马静,李驰,朱恒民. 基于XGBoost模型的电商商品品名识别算法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 34-41.
[2] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[3] 关鹏,王曰芬,傅柱. 基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例[J]. 数据分析与知识发现, 2019, 3(7): 61-72.
[4] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法
研究 *
[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[5] 孔贝贝,谢靖,钱力,常志军,吴振新. 科技大数据增值丰富化方法研究与工具研发 *[J]. 数据分析与知识发现, 2019, 3(7): 113-122.
[6] 范雪雪, 王志荣, 徐晤, 梁银, 马小虎. 基于医学本体的术语相似度算法研究[J]. 现代图书情报技术, 2015, 31(12): 57-64.
[7] 任海英, 于立婷. 一种基于维基百科的多策略词义消歧方法[J]. 现代图书情报技术, 2015, 31(11): 18-25.
[8] 杜坤, 刘怀亮, 郭路杰. 结合复杂网络的特征权重改进算法研究[J]. 现代图书情报技术, 2015, 31(11): 26-32.
[9] 颉夏青, 吴旭. “经典阅读”网络平台可视化技术应用及实现[J]. 现代图书情报技术, 2015, 31(11): 96-103.
[10] 何宇, 吕学强, 徐丽萍. 新能源汽车领域中文术语抽取方法[J]. 现代图书情报技术, 2015, 31(10): 88-94.
[11] 杜思奇, 李红莲, 吕学强. 汉语组块分析在产品特征提取中的应用研究[J]. 现代图书情报技术, 2015, 31(9): 26-30.
[12] 许德山, 李辉, 张运良. 文献关键词链接标引方法研究[J]. 现代图书情报技术, 2015, 31(9): 31-37.
[13] 敦文杰, 孙一钢, 朱先忠. 互联网络电视多媒体文档格式设计与实现[J]. 现代图书情报技术, 2015, 31(9): 82-89.
[14] 陈诗琴, 李文江. WebSocket在图书馆移动信息服务中的应用[J]. 现代图书情报技术, 2015, 31(9): 90-96.
[15] 童国平, 孙建军. 基于搜索日志的用户行为分析[J]. 现代图书情报技术, 2015, 31(7-8): 80-88.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn