Please wait a minute...
Advanced Search
现代图书情报技术  2010, Vol. 26 Issue (10): 43-48    DOI: 10.11925/infotech.1003-3513.2010.10.07
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
热点主题词提取方法研究
程肖, 陆蓓, 谌志群
杭州电子科技大学计算机应用技术研究所 杭州 310018
Research on Extraction of Hot Keywords
Cheng Xiao, Lu Bei, Chen Zhiqun
Institute of Computer Application Technology, Hangzhou Dianzi University, Hangzhou 310018, China
全文: PDF(415 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

针对热点主题词的提取,在候选主题词的多级过滤中,尝试通过对大规模数据处理,分析其在时间标签基础上的统计规律来确定噪音词,提出联合方差的概念。基于多特征的融合提出热点主题词权重计算方法,构造出热点主题词判断公式HK,实现对热点主题词的提取。实验结果表明,该方法对热点主题词的提取有一定的效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
程肖
陆蓓
谌志群
关键词 网络舆情中文分词主题词权重计算    
Abstract

According to extraction of hot keywords in the multi-phase candidate keywords, the paper tries mass data process,determines the meaningless words based on the timing of statistical law, and proposes Union Variance (UV) concept. The HK (Hot Keywords) formula is constructed based on multi-feature fusion to achieve the extraction of hot keywords. Experimental results show that this method is efficient in the process of hot subject extraction.

Key wordsOnline    public    opinion    Chinese    word    segmentation    Keywords    Weighting    calculation
收稿日期: 2010-08-16     
: 

G353.1

 
基金资助:

本文系教育部人文社会科学研究项目“大规模汉语文本知识挖掘关键技术研究”(项目编号:08JC740011)的研究成果之一。

引用本文:   
程肖, 陆蓓, 谌志群. 热点主题词提取方法研究[J]. 现代图书情报技术, 2010, 26(10): 43-48.
Cheng Xiao, Lu Bei, Chen Zhiqun. Research on Extraction of Hot Keywords. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2010.10.07.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.10.07


[1] CNNIC发布《第26次中国互联网络发展状况统计报告》 . . http://research.cnnic.cn/html/1279173730d2350.html.

[2] 陆蓓,程肖,谌志群.互联网舆情挖掘研究述略
[J]. 情报资料工作 ,2010(2):41-45.

[3] 邱立坤,陶然,龙志炜,等.面向互联网的话题发现技术研究 . 见: 全国网络与信息安全技术研讨会论文集(下册) . 青岛:中国通信学会,2007:373-379.

[4] 李恒训,张华平,秦鹏,等.基于主题词的网络热点话题发现 . 见: 第五届全国信息检索学术会议论文集 .上海:中国中文信息学会,2009:134-143.

[5] Zhang H P, Liu Q, Yu H K, et al.Chinese Name Entity Recognition Using Role Model
[J]. International Journal of Computational Linguistics and Chinese Language Processing, 2003,8(2):29-60.

[6] 化柏林.知识抽取中的停用词处理技术
[J]. 现代图书情报技术 ,2007(8):48-51.

[7] 曾依灵,许洪波,白硕.网络文本主题词的提取与组织研究
[J]. 中文信息学报 ,2008,22(3):64-70,80.

[8] 刘星星,何婷婷,龚海军,等.网络热点事件发现系统的设计
[J]. 中文信息学报 ,2008,22(6):80-85.

[9] 陆蓓,程肖,谌志群.基于改进蚁群聚类的热点主题发现算法研究
[J]. 现代图书情报技术 ,2010(4):66-71.

[10] 丁伟莉,赵华,郑德权,等.中文Bolg热门话题检测与排序技术研究 . 见: 中国中文信息学会二十五周年学术会议论文集 . 北京:中国中文信息学会,2006:282-289.

[1] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[2] 梅妍霜,朱恒民,魏静. 媒体协同对网络舆情扩散的作用机制研究*[J]. 数据分析与知识发现, 2019, 3(2): 65-71.
[3] 贾隆嘉,张邦佐. 高校网络舆情安全中主题分类方法研究*——以新浪微博数据为例[J]. 数据分析与知识发现, 2018, 2(7): 55-62.
[4] 冯国明,张晓冬,刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
[5] 王璟琦,李锐,吴华意. 基于空间自相关的网络舆情话题演化时空规律分析*[J]. 数据分析与知识发现, 2018, 2(2): 64-73.
[6] 倪维健,孙浩浩,刘彤,曾庆田. 面向领域文献的无监督中文分词自动优化方法*[J]. 数据分析与知识发现, 2018, 2(2): 96-104.
[7] 李真,丁晟春,王楠. 网络舆情观点主题识别研究*[J]. 数据分析与知识发现, 2017, 1(8): 18-30.
[8] 王宇,李秀秀. 基于电子商务评论的商家信誉维度构建*[J]. 数据分析与知识发现, 2017, 1(8): 59-67.
[9] 王晰巍,张柳,李师萌,王楠阿雪. 新媒体环境下社会公益网络舆情传播研究* ——以新浪微博“画出生命线”话题为例[J]. 数据分析与知识发现, 2017, 1(6): 93-101.
[10] 张越,王东波,朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[11] 丁晟春,龚思兰,李红梅. 基于突发主题词和凝聚式层次聚类的微博突发事件检测研究*[J]. 现代图书情报技术, 2016, 32(7-8): 12-20.
[12] 吴鹏,金贝贝,强韶华. 基于BDI-Agent模型的突发事件网络舆情应急响应建模研究*[J]. 现代图书情报技术, 2016, 32(7-8): 32-41.
[13] 杨小平,马奇凤,余力,莫雨婷,吴佳楠,张悦. 评论簇在网络舆论中的情感倾向代表性研究*[J]. 现代图书情报技术, 2016, 32(7-8): 51-59.
[14] 黄炜,余辉,李岳峰. 国内网络反恐研究的现状、问题和展望*[J]. 现代图书情报技术, 2016, 32(11): 1-10.
[15] 吴鹏, 杨爽, 张晶晶, 高庆宁. 突发事件网络舆情中网民群体行为演化的Agent建模与仿真研究[J]. 现代图书情报技术, 2015, 31(7-8): 65-72.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn