Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (11): 51-59     https://doi.org/10.11925/infotech.1003-3513.2015.11.08
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
多媒体微博评论信息的主题发现算法研究
叶川, 马静
南京航空航天大学经济与管理学院 南京 211106
Research on Topic Discovery Algoritm of Multimedia Microblog Comments Information
Ye Chuan, Ma Jing
College of Economic and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China
全文: PDF (1386 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]发现微博中图片或视频等多媒体内容的主题特征。[应用背景]多媒体微博的文本内容普遍简短且主题通常蕴含在图片或视频等多媒体内容中, 传统的文本挖掘方法不适用于这种多媒体类微博。[方法]通过热点评论扩充该多媒体微博的文本空间, 并使用LDA主题模型进行分类推断与主题特征挖掘, 使用“主题标签–特征词”的形式表达微博多媒体内容的主题特征。[结果]使用爬虫工具采集的99 823条新浪微博构建训练集, 151条热门多媒体微博及其所有评论构建测试集进行实验, 构建的分类目录中标签完善, 主题标签推断准确率达到88.6%, 相关特征词挖掘准确率为76.0%。[结论]实验结果表明本文的算法可以有效且显著地发现多媒体微博的主题特征。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
Abstract

[Objective] This paper is aiming at discovering the topic of multimedia content such as images or videos in microblogs.[Context] The text content of multimedia microblogs is usually brief and the topic of such microblogs generally contains in its multimedia content such as images or videos, so the traditional text mining methods may not be applied to these cases.[Methods] Extend text space of the multimedia microblog through the use of hot comments. Then use LDA topic model to inference the classification and mine the topic features. Finally, express topic features of the multimedia mircoblog in the form of ‘topic tag -feature words'.[Results] Experiments by constructing the training set use 99 823 Sina microblogs collected by crawler tool set, and constructing the test set use 151 hot multimedia microblogs with all those comments. Results show that the classification directory built in this paper is complete, the topic tag infers with 88.6% accuracy, and the relevant feature word mining accuracy is 76.0%.[Conclusions] The experiment results show that the new algorithm can effectively and significantly discover topic features of multimedia microblogs.

收稿日期: 2015-07-06      出版日期: 2016-04-06
:  TP391  
  G35  
基金资助:

本文系国家自然科学基金项目“基于演化本体的网络舆情自适应跟踪方法研究”(项目编号:71373123)和江苏高校哲学社会科学研究重点项目“基于超网络的江苏教育微博舆情多元意见演化模型及应用研究”(项目编号:2015ZDIXM007)的研究成果之一。

通讯作者: 马静, ORCID: 0000-0001-8472-2518, E-mail: majing5525@126.com。     E-mail: majing5525@126.com
作者简介: 作者贡献声明:叶川: 提出研究思路和方案, 进行实验, 论文撰写与修订; 马静: 扩展研究思路, 论文审阅与修订。
引用本文:   
叶川, 马静. 多媒体微博评论信息的主题发现算法研究[J]. 现代图书情报技术, 2015, 31(11): 51-59.
Ye Chuan, Ma Jing. Research on Topic Discovery Algoritm of Multimedia Microblog Comments Information. New Technology of Library and Information Service, 2015, 31(11): 51-59.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.11.08      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2015/V31/I11/51

[1] 中国互联网络信息中心. 中国互联网络发展状况统计报告[R/OL]. [2015-02-03]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/ hlwtjbg/201502/P020150203548852631921.pdf. (China Internet Network Information Center. The 35th Statistical Report on the Network Development of China Internet. [R/OL]. [2015-02-03]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201502/ P020150203548852631921.pdf.)
[2] 百度推视觉搜索引擎欲与谷歌一较高下[J]. 中国传媒科技, 2013, 6: 2. (Baidu Launches a Visual Search Engine to Compete with Google [J]. Science & Technology for China's Mass Media, 2013, 6: 2)
[3] 洪宇, 张宇, 刘挺, 等. 话题检测与跟踪的评测及研究综述[J]. 中文信息学报, 2007, 21(6): 71-87. (Hong Yu, Zhang Yu, Liu Ting, et al. Topic Detection and Tracking Review [J]. Journal of Chinese Information Processing, 2007, 21(6): 71-87.)
[4] Liu B. Web 数据挖掘[M]. 俞勇, 薛贵荣, 韩定一, 等译. 北京: 清华大学出版社, 2009:136-141. (Liu B. Web Data Mining [M]. Translated by Yu Yong, Xue Guirong, Han Dingyi, et al. Beijing: Tsinghua University Press, 2009: 136-141.)
[5] 徐戈, 王厚峰. 自然语言处理中主题模型的发展[J]. 计算机学报, 2011, 34(8): 1423-1436. (Xu Ge, Wang Houfeng. The Development of Topic Model in Natural Language Processing [J]. Chinese Journal of Computers, 2011, 34(8): 1423-1436.)
[6] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[7] Blei D M. Introduction to Probabilistic Topic Models [J]. Communications of the ACM, 2012,55(4): 77-84.
[8] Rosen-Zvi M, Griffiths T, Steyvers M, et al. The Author-Topic Model for Authors and Documents [C]. In: Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. 2004.
[9] Zhao W X, Jiang J, Weng J, et al. Comparing Twitter and Traditional Media Using Topic Models[C]. In: Proceedings of the 33rd European Conference on Information Retrieval Research, Dublin, Ireland. Springer Berlin Heidelberg, 2011: 338-349.
[10] 张晨逸, 孙建伶, 丁轶群. 基于MB-LDA模型的微博主题挖掘[J]. 计算机研究与发展, 2011, 48(10): 1795-1802. (Zhang Chenyi, Sun Jianling, Ding Yiqun. Topic Mining for Microblog Based on MB-LDA Model [J]. Journal of Computer Research and Development, 2011, 48(10): 1795-1802.)
[11] 唐晓波, 向坤. 基于LDA模型和微博热度的热点挖掘[J]. 图书情报工作, 2014, 58(5): 58-63. (Tang Xiaobo, Xiang Kun. Hot Spot Mining Based on LDA Model and Microblog Heat [J]. Library and Information Service, 2014, 58(5): 58-63.)
[12] 谢昊, 江红.一种面向微博主题挖掘的改进LDA模型[J]. 华东师范大学学报: 自然科学版, 2013(6): 93-101. (Xie Hao, Jiang Hong. Improved LDA Model for Microblog Topic Mining [J]. Journal of East China Normal University: Natural Sciences, 2013(6): 93-101.)
[13] 史存会, 林鸿飞. 追踪事件微博报道: 一种流的动态话题模型[J]. 山东大学学报: 理学版, 2012, 47 (5): 13-18. (Shi Cunhui, Lin Hongfei. Tracking Event Microblogs: A Streaming Dynamic Topic Model [J]. Journal of Shandong University: Natural Science, 2012, 47(5): 13-18.)
[14] 刁宇峰, 杨亮, 林鸿飞. 基于LDA模型的博客垃圾评论发现[J]. 中文信息学报, 2011, 25(1): 41-47. (Diao Yufeng, Yang Liang, Lin Hongfei. LDA-Based Opinion Spam Discovering [J]. Journal of Chinese Information Processing, 2011, 25(1): 41-47.)
[15] 吕韶华, 杨亮, 林鸿飞. 基于LDA模型的餐馆评论排序[J]. 计算机工程, 2011, 37(19): 62-67. (Lv Shaohua, Yang Liang, Lin Hongfei. Ranks of Restaurant Reviews Based on LDA Model [J]. Computer Engineering, 2011, 37(19): 62-67.)
[16] 阮光册. 基于LDA的网络评论主题发现研究[J]. 情报杂志, 2014, 33(3): 161-164. (Ruan Guangce. Topic Extraction Research of Net Reviews Based on Latent Dirichlet Allocation [J]. Journal of Information, 2014, 33(3): 161-164.)
[17] Ramage D, Dumais S, Liebling D. Characterizing Microblogs with Topic Models [C]. In: Proceedings of the 4th International AAAI Conference on Weblogs and Social Media. 2010.
[18] 王宇阳. 基于本体进化的自适应中文话题跟踪算法研究[D]. 南京: 南京航空航天大学, 2013. (Wang Yuyang. Research on Algorithm of Adaptive Chinese Topic Tracking Based on Ontology Evolution [D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2013.)
[19] 单斌, 李芳. 基于种子文档 LDA 话题的演化研究[J]. 现代图书情报技术, 2011(7-8): 104-109. (Shan Bin, Li Fang. Topic Evolution Based on Seminal Document and Topic Model [J]. New Technology of Library and Information Service, 2011(7-8): 104-109.)
[20] 邓爱林, 朱扬勇, 施伯乐. 基于项目评分预测的协同过滤推荐算法[J]. 软件学报, 2003, 14(9): 1621-1628. (Deng Ailin, Zhu Yangyong, Shi Bole. A Collaborative Filtering Recommendation Algorithm Based on Item Rating Prediction [J]. Journal of Software, 2003, 14(9): 1621-1628.)

[1] 王鸿, 舒展, 高印权, 田文洪. 一种单分类器联合多任务网络的隐式句间关系分析方法*[J]. 数据分析与知识发现, 2021, 5(11): 80-88.
[2] 吴彦文, 蔡秋亭, 刘智, 邓云泽. 融合多源数据和场景相似度计算的数字资源推荐研究*[J]. 数据分析与知识发现, 2021, 5(11): 114-123.
[3] 李振宇, 李树青. 嵌入隐式相似群的深度协同过滤算法*[J]. 数据分析与知识发现, 2021, 5(11): 124-134.
[4] 董淼, 苏中琪, 周晓北, 兰雪, 崔志刚, 崔雷. 利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试[J]. 数据分析与知识发现, 2021, 5(11): 145-152.
[5] 余传明, 张贞港, 孔令格. 面向链接预测的知识图谱表示模型对比研究*[J]. 数据分析与知识发现, 2021, 5(11): 29-44.
[6] 丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[7] 华斌, 吴诺, 贺欣. 基于知识融合的政务信息化项目多专家审批意见整合*[J]. 数据分析与知识发现, 2021, 5(10): 124-136.
[8] 王媛, 时恺泽, 牛振东. 一种用于实体关系三元组抽取的位置辅助分步标记方法*[J]. 数据分析与知识发现, 2021, 5(10): 71-80.
[9] 杨辰, 陈晓虹, 王楚涵, 刘婷婷. 基于用户细粒度属性偏好聚类的推荐策略*[J]. 数据分析与知识发现, 2021, 5(10): 94-102.
[10] 戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
[11] 汪雪锋, 任惠超, 刘玉琴. 融合聚类信息的技术主题图可视化方法研究 [J]. 数据分析与知识发现, 0, (): 1-.
[12] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[13] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[14] 周阳,李学俊,王冬磊,陈方,彭莉娟. 炸药配方设计知识图谱的构建与可视分析方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 42-53.
[15] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn