Please wait a minute...
Advanced Search
现代图书情报技术  2012, Vol. Issue (11): 65-71     https://doi.org/10.11925/infotech.1003-3513.2012.11.11
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
网络舆情主题信息采集研究
黄炜1,2, 金雅博1, 胡昌龙1
1. 湖北工业大学管理学院 武汉 430068;
2. 武汉理工大学管理学院 武汉 430070
Focused Crawling for Network Public Opinion’s Topic Information
Huang Wei1,2, Jin Yabo1, Hu Changlong1
1. School of Management, Hubei University of Technology, Wuhan 430068, China;
2. School of Management, Wuhan University of Technology, Wuhan 430070, China
全文: PDF (740 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 网络舆情的主题不确定性问题在网络治理中越来越突出,通过研究网络舆情的相关特征及其演化机制,在基于内容的主题选择策略上,引入时间维和空间维的主题因子,设计并实现网络舆情的主题信息爬虫。实验结果表明,该主题信息爬虫不仅执行的效率较高,而且主题约束性稳定,为后期网络群体性事件的舆情处理提供主题样本。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
黄炜
金雅博
胡昌龙
关键词 网络群体性事件网络舆情主题爬虫领域本体主题因子    
Abstract:The unfocused problem of network public opinion becomes more and more serious. This article proposes a focused crawler for network public opinion based on content topic selection strategy with time and spatial dimension factor by analyzing feature and evolution of network group events. The results of experiments prove that this focused crawler has higher execution efficiency, and also achives good focused ability. That provides the focused resources of processing network public opinion group events.
Key wordsNetwork group events    Network public opinion    Focused crawler    Domain Ontology    Focused factor
收稿日期: 2012-11-05      出版日期: 2013-02-06
:  G353.1  
基金资助:本文系教育部人文社会科学研究青年基金项目“网络群体性事件的源信息获取与演化机制研究”(项目编号:10YJC870012)、中国博士后科学基金项目“基于核方法的网络非常规突发事件的智能识别与应用研究”(项目编号:2012M511697)、湖北省自然科学基金项目“基于机器学习的网络舆情信息挖掘与应用研究”(项目编号:2011CDB080)和教育部人文社会科学研究青年基金项目“虚拟社会网络环境下微博的集群行为感知与规律研究”(项目编号:12YJC870009)的研究成果之一。
通讯作者: 黄炜     E-mail: tonny_hw@163.com
引用本文:   
黄炜, 金雅博, 胡昌龙. 网络舆情主题信息采集研究[J]. 现代图书情报技术, 2012, (11): 65-71.
Huang Wei, Jin Yabo, Hu Changlong. Focused Crawling for Network Public Opinion’s Topic Information. New Technology of Library and Information Service, 2012, (11): 65-71.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2012.11.11      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2012/V/I11/65
[1] 中国互联网信息中心.第30次中国互联网络发展状况调查统计报告[R/OL].[2012-07-25]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201207/t20120723_32497.htm. (China Internet Network Information Center. The 30th China Internet Development Statistics Report[R/OL].[2012-07-25]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201207/t20120723_32497.htm.)
[2] 刘毅. 略论网络舆情的概念、特点、表达与传播[J]. 理论界, 2007(1):11-12. (Liu Yi. Research on Network Public Opinion, Expression and Dissemination[J]. Theory Horizon, 2007(1):11-12.)
[3] Sahami M. Using Machine Learning to Improve Information Access[D]. Stanford: Stanford University, 1998.
[4] 北大方正技术研究院. 以科技手段辅助网络舆情突发事件的监测分析—方正智思舆情辅助决策支持系统[J]. 信息化建设, 2005(10):50-52. (Research Department of Fonder. Research on the Monitoring and Analysis of Network Public Opinion System-Founder Public Opinion of the Decision Support System[J]. Informatization Construction, 2005(10):50-52.)
[5] 周立柱, 林玲. 聚焦爬虫技术研究综述[J]. 计算机应用, 2005, 25(9):1965-1969.(Zhou Lizhu, Lin Ling. Survey on the Research of Focused Crawling Technique[J]. Journal of Computer Applications, 2005, 25(9):1965-1969.)
[6] Sun H, Wei Y M. A Note on the PageRank Algorithm[J]. Applied Mathematics and Computation, 2006, 79(2):799-806.
[7] Nomura S, Oyama S, Hayamizu T, et al. Analysis and Improvement of HITS Algorithm for Detecting Web Communities[C]. In: Proceedings of 2002 Symposium on Applications and the Internet (SAINT'02). 2002:132-140.
[8] Aggarwal C C, Gates S C, Yu P S. On the Merits of Using Supervised Clustering for Building Categorization Systems[C]. In: Proceedings of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'99). New York: ACM, 1999: 352-356.
[9] De Bra P M E, Houben G, Kornatzky Y, et al. Information Retrieval in Distributed Hypertexts[C]. In: Proceedings of the 4th Computer-Assisted Information Retrieval (RIAO'94). 1994: 481-493.
[10] De Bra P M E, Post R D J. Information Retrieval in the World Wide Web: Making Client-based Searching Feasible[C]. In: Proceedings of the 1st International Conference on World Wide Web, Geneva. Amsterdam: Elsevier, 1994: 183-192.
[11] 姜鹏,宋继华.一种主题爬虫文本分类器的构建[J]. 中文信息学报, 2010,24(6):92-96.(Jiang Peng,Song Jihua. A Method of Text Classifier for Focused Crawler[J]. Journal of Chinese Information Processing, 2010, 24(6):92-96.)
[12] 朱学芳,韩占校.基于P2P的分布式主题爬虫系统的设计与实现[J]. 情报学报, 2010,29(3):402-407.(Zhu Xuefang, Han Zhanxiao. Design and Implementation of Distributed Topic Crawler Based on P2P for Image Retrieval[J]. Journal of the China Society for Scientific and Technical Information,2010,29(3):402-407.)
[13] 乔建忠.基于主题爬虫的本体非分类关系学习框架[J]. 图书情报工作,2010,54(18):120-125, 129.(Qiao Jianzhong. Learning Non-taxonomic Relationships Based on Focused Crawler[J]. Library and Information Service, 2010,54(18):120-125, 129.)
[14] 蒋国瑞,王秋利.基于本体的TBT电子信息产品领域主题爬虫研究[J]. 情报杂志, 2011,30(7):157-161.(Jiang Guorui, Wang Qiuli.Research on Focused Crawler of TBT Electronic Information Products Based on Ontology[J].Journal of Information, 2011, 30(7):157-161.)
[15] 宋海洋,刘晓然,钱海俊.一种新的主题网络爬虫爬行策略[J]. 计算机应用与软件, 2011,28(11):264-267.(Song Haiyang, Liu Xiaoran, Qian Haijun. A Novel Crawling Strategy of Focused Web Crawler[J].Computer Applications and Software,2011,28(11):264-267.)
[16] 张囡囡. 面向语义网的领域本体半自动构建方法的研究[D]. 大连:大连海事大学, 2008.(Zhang Nannan. Research on the Method of Semi-automatic Domain Ontology Building for the Semantic Web[D]. Dalian: Dalian Maritime University, 2008.)
[17] 黄炜,程宝生,杨青. 基于本体的网络群体性事件主题发现研究[J]. 图书情报工作, 2012, 56(20):47-52.(Huang Wei, Cheng Baosheng, Yang Qing. Topic Discovery of Network Group Events Based on Ontology[J]. Library and Information Service, 2012, 56(20):47-52.)
[18] 连浩,刘悦,许洪波, 等. 改进的基于布尔模型的网页查重算法[J]. 计算机应用研究, 2007, 24(2):36-39.(Lian Hao, Liu Yue, Xu Hongbo, et al. Duplicated Web Pages Detection Algorithm Based on Boolean Model[J]. Application Research of Computers, 2007, 24(2):36-39.)
[19] 黄炜,张李义. 基于语义爬虫的商品信息主题采集研究[J]. 现代图书情报技术, 2010(1):3-8.(Huang Wei, Zhang Liyi. Research on Focused Merchandise Information Crawling Based on Semantic Crawler[J]. New Technology of Library and Information Service, 2010 (1):3-8.)
[20] 谢科范,赵湜,陈刚, 等.网络舆情突发事件的生命周期原理及集群决策研究[J]. 武汉理工大学学报:社会科学版, 2010, 23(4):482-486.(Xie Kefan, Zhao Shi, Chen Gang, et al. Research on Lifecycle Principle and Group Decision-making of Network Public Sentiment Emergency[J]. Journal of Wuhan University of Technology :Social Science Edition, 2010, 23(4):482-486.)
[1] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[2] 程铁军, 王曼, 黄宝凤, 冯兰萍. 基于CEEMDAN-BP模型的突发事件网络舆情预测研究*[J]. 数据分析与知识发现, 2021, 5(11): 59-67.
[3] 邓建高,张璇,傅柱,韦庆明. 基于系统动力学的突发事件网络舆情传播研究:以“江苏响水爆炸事故”为例*[J]. 数据分析与知识发现, 2020, 4(2/3): 110-121.
[4] 梁艳平,安璐,刘静. 同类突发公共卫生事件微博话题共振研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 122-133.
[5] 丁晟春,俞沣洋,李真. 网络舆情潜在热点主题识别研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 29-38.
[6] 黄微,赵江元,闫璐. 网络热点事件话题漂移指数构建与实证研究*[J]. 数据分析与知识发现, 2020, 4(11): 92-101.
[7] 梅妍霜,朱恒民,魏静. 媒体协同对网络舆情扩散的作用机制研究*[J]. 数据分析与知识发现, 2019, 3(2): 65-71.
[8] 何有世, 何述芳. 基于领域本体的产品网络口碑信息多层次细粒度情感挖掘*[J]. 数据分析与知识发现, 2018, 2(8): 60-68.
[9] 贾隆嘉, 张邦佐. 高校网络舆情安全中主题分类方法研究*——以新浪微博数据为例[J]. 数据分析与知识发现, 2018, 2(7): 55-62.
[10] 王璟琦, 李锐, 吴华意. 基于空间自相关的网络舆情话题演化时空规律分析*[J]. 数据分析与知识发现, 2018, 2(2): 64-73.
[11] 李真, 丁晟春, 王楠. 网络舆情观点主题识别研究*[J]. 数据分析与知识发现, 2017, 1(8): 18-30.
[12] 王晰巍, 张柳, 李师萌, 王楠阿雪. 新媒体环境下社会公益网络舆情传播研究* ——以新浪微博“画出生命线”话题为例[J]. 数据分析与知识发现, 2017, 1(6): 93-101.
[13] 丁晟春,龚思兰,李红梅. 基于突发主题词和凝聚式层次聚类的微博突发事件检测研究*[J]. 现代图书情报技术, 2016, 32(7-8): 12-20.
[14] 吴鹏,金贝贝,强韶华. 基于BDI-Agent模型的突发事件网络舆情应急响应建模研究*[J]. 现代图书情报技术, 2016, 32(7-8): 32-41.
[15] 杨小平,马奇凤,余力,莫雨婷,吴佳楠,张悦. 评论簇在网络舆论中的情感倾向代表性研究*[J]. 现代图书情报技术, 2016, 32(7-8): 51-59.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn