Please wait a minute...
Advanced Search
现代图书情报技术  2010, Vol. 26 Issue (10): 43-48     https://doi.org/10.11925/infotech.1003-3513.2010.10.07
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
热点主题词提取方法研究
程肖, 陆蓓, 谌志群
杭州电子科技大学计算机应用技术研究所 杭州 310018
Research on Extraction of Hot Keywords
Cheng Xiao, Lu Bei, Chen Zhiqun
Institute of Computer Application Technology, Hangzhou Dianzi University, Hangzhou 310018, China
全文: PDF (415 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

针对热点主题词的提取,在候选主题词的多级过滤中,尝试通过对大规模数据处理,分析其在时间标签基础上的统计规律来确定噪音词,提出联合方差的概念。基于多特征的融合提出热点主题词权重计算方法,构造出热点主题词判断公式HK,实现对热点主题词的提取。实验结果表明,该方法对热点主题词的提取有一定的效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
程肖
陆蓓
谌志群
关键词 网络舆情中文分词主题词权重计算    
Abstract

According to extraction of hot keywords in the multi-phase candidate keywords, the paper tries mass data process,determines the meaningless words based on the timing of statistical law, and proposes Union Variance (UV) concept. The HK (Hot Keywords) formula is constructed based on multi-feature fusion to achieve the extraction of hot keywords. Experimental results show that this method is efficient in the process of hot subject extraction.

Key wordsOnline    public    opinion    Chinese    word    segmentation    Keywords    Weighting    calculation
收稿日期: 2010-08-16      出版日期: 2011-01-04
: 

G353.1

 
基金资助:

本文系教育部人文社会科学研究项目“大规模汉语文本知识挖掘关键技术研究”(项目编号:08JC740011)的研究成果之一。

引用本文:   
程肖, 陆蓓, 谌志群. 热点主题词提取方法研究[J]. 现代图书情报技术, 2010, 26(10): 43-48.
Cheng Xiao, Lu Bei, Chen Zhiqun. Research on Extraction of Hot Keywords. New Technology of Library and Information Service, 2010, 26(10): 43-48.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.10.07      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2010/V26/I10/43


[1] CNNIC发布《第26次中国互联网络发展状况统计报告》 . . http://research.cnnic.cn/html/1279173730d2350.html.

[2] 陆蓓,程肖,谌志群.互联网舆情挖掘研究述略
[J]. 情报资料工作 ,2010(2):41-45.

[3] 邱立坤,陶然,龙志炜,等.面向互联网的话题发现技术研究 . 见: 全国网络与信息安全技术研讨会论文集(下册) . 青岛:中国通信学会,2007:373-379.

[4] 李恒训,张华平,秦鹏,等.基于主题词的网络热点话题发现 . 见: 第五届全国信息检索学术会议论文集 .上海:中国中文信息学会,2009:134-143.

[5] Zhang H P, Liu Q, Yu H K, et al.Chinese Name Entity Recognition Using Role Model
[J]. International Journal of Computational Linguistics and Chinese Language Processing, 2003,8(2):29-60.

[6] 化柏林.知识抽取中的停用词处理技术
[J]. 现代图书情报技术 ,2007(8):48-51.

[7] 曾依灵,许洪波,白硕.网络文本主题词的提取与组织研究
[J]. 中文信息学报 ,2008,22(3):64-70,80.

[8] 刘星星,何婷婷,龚海军,等.网络热点事件发现系统的设计
[J]. 中文信息学报 ,2008,22(6):80-85.

[9] 陆蓓,程肖,谌志群.基于改进蚁群聚类的热点主题发现算法研究
[J]. 现代图书情报技术 ,2010(4):66-71.

[10] 丁伟莉,赵华,郑德权,等.中文Bolg热门话题检测与排序技术研究 . 见: 中国中文信息学会二十五周年学术会议论文集 . 北京:中国中文信息学会,2006:282-289.

[1] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[2] 程铁军, 王曼, 黄宝凤, 冯兰萍. 基于CEEMDAN-BP模型的突发事件网络舆情预测研究*[J]. 数据分析与知识发现, 2021, 5(11): 59-67.
[3] 唐琳,郭崇慧,陈静锋. 中文分词技术研究综述*[J]. 数据分析与知识发现, 2020, 4(2/3): 1-17.
[4] 邓建高,张璇,傅柱,韦庆明. 基于系统动力学的突发事件网络舆情传播研究:以“江苏响水爆炸事故”为例*[J]. 数据分析与知识发现, 2020, 4(2/3): 110-121.
[5] 梁艳平,安璐,刘静. 同类突发公共卫生事件微博话题共振研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 122-133.
[6] 丁晟春,俞沣洋,李真. 网络舆情潜在热点主题识别研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 29-38.
[7] 黄微,赵江元,闫璐. 网络热点事件话题漂移指数构建与实证研究*[J]. 数据分析与知识发现, 2020, 4(11): 92-101.
[8] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[9] 梅妍霜,朱恒民,魏静. 媒体协同对网络舆情扩散的作用机制研究*[J]. 数据分析与知识发现, 2019, 3(2): 65-71.
[10] 贾隆嘉, 张邦佐. 高校网络舆情安全中主题分类方法研究*——以新浪微博数据为例[J]. 数据分析与知识发现, 2018, 2(7): 55-62.
[11] 冯国明, 张晓冬, 刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
[12] 王璟琦, 李锐, 吴华意. 基于空间自相关的网络舆情话题演化时空规律分析*[J]. 数据分析与知识发现, 2018, 2(2): 64-73.
[13] 倪维健, 孙浩浩, 刘彤, 曾庆田. 面向领域文献的无监督中文分词自动优化方法*[J]. 数据分析与知识发现, 2018, 2(2): 96-104.
[14] 李真, 丁晟春, 王楠. 网络舆情观点主题识别研究*[J]. 数据分析与知识发现, 2017, 1(8): 18-30.
[15] 王宇, 李秀秀. 基于电子商务评论的商家信誉维度构建*[J]. 数据分析与知识发现, 2017, 1(8): 59-67.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn