Hashtag研究综述

引用本文

邵健, 章成志, 李蕾. Hashtag研究综述[J]. 现代图书情报技术, 2015,31(10): 40-49
Shao Jian, Zhang Chengzhi, Li Lei. Survey on Hashtag Mining and Its Application. New Technology of Library and Information Service,2015,31(10): 40-49 复制到剪切板

Permissions

《现代图书情报技术》编辑部

Hashtag研究综述

邵健¹, 章成志^1,², 李蕾¹

¹南京理工大学经济管理学院南京 210094

²江苏省数据工程与知识服务重点实验室(南京大学) 南京 210093

通讯作者:章成志, ORCID: 0000-0001-8121-4796, E-mail:zhangcz@njust.edu.cn。

作者贡献声明：

邵健: 文献调研与整理, 论文起草;

章成志: 提出研究思路, 讨论研究方案, 论文最终版本修订;

李蕾: 论文修订。

基金:*本文系国家社会科学基金项目“在线社交网络中基于用户的知识组织模式研究”(项目编号:14BTQ033)和教育部人文社会科学基金规划项目“多语言高质量社会化标签生成及聚类研究”(项目编号: 13YJA870020)的研究成果之一

摘要

【目的】分析当前Hashtag研究思路和技术, 归纳和总结当前Hashtag研究中所存在的问题, 并提炼Hashtag研究的理论意义与实际意义, 为更深入的Hashtag研究提供参考。【文献范围】以2007年至2015年的国际会议和国内外期刊的60篇文献作为主要研究对象。【方法】调研Hashtag研究及其应用的相关文献, 对Hashtag研究中各环节涉及的方法进行分析和总结。【结果】Hashtag在用户使用、Hashtag挖掘与基于Hashtag的应用研究三方面存在一些可以深入研究的问题。【结论】未来应侧重于Hashtag的理论研究, 如用户标注Hashtag的动机、影响Hashtag标注的因素等。在实际应用中, 结合不同学科方法和多个领域的技术改善Hashtag在实际应用中的效果。

关键词: Hashtag; 文本挖掘; 社会化标签; 热点事件发现; 情感分类

中图分类号:G350

Survey on Hashtag Mining and Its Application

Shao Jian¹, Zhang Chengzhi^1,², Li Lei¹

¹School of Economics & Management, Nanjing University of Science and Technology, Nanjing 210094, China

²Jiangsu Key Laboratory of Data Engineering and Knowledge Service (Nanjing University), Nanjing 210093, China

Abstract

[Objective] The authors analyze Hashtag research, summarize the current problems in Hashtag research. After refining the theoretical and practical significance of Hashtag research, then present further research of Hashtag.[Coverage] About 60 literatures from international conferences and journals (2007-2015) are investigated.[Methods] Survey on Hashtag mining and its application and summarize different methods on Hashtag mining. The process and different methods of Hashtag mining are analyzed.[Results] There are some problems about user Hashtag using, mining and applications.[Conclusions] Further study should be focused on theory of Hashtag, e.g. motivation of Hashtag using, and reasons that affect Hashtag using. The performance of Hashtag application should be improved by combined of the methods and technologies from different disciplines.

Keyword: Hashtag; Text mining; Social tag; Hot events detection; Sentiment classification

Show Figures

1 引言

当前很多微博平台相继加入Hashtag, 如关于禽流感事件的Hashtag在Twitter中为“ #H7N9” , 在新浪微博中为“ #H7N9#” 。随着Hashtag被越来越多的社交平台引入, 其在实际应用中逐渐得到人们的重视。

Hashtag与传统标签在表现形式上有着很大的区别, 传统标签与标注对象在形式上相互独立, 而Hashtag则直接出现在标注对象内部, 导致一些针对传统标签进行处理的方法对Hashtag不适用。因此, 在Hashtag抽取或推荐中, 应根据Hashtag自身的特点进行有针对性的处理。目前已经有很多学者系统地研究了传统的社会化标签理论与技术^[1], Hashtag可以看作一种特殊的社会化标签, 目前尚缺乏关于Hashtag的系统化研究。

本文对当前Hashtag相关研究进行系统梳理, 以关键词“ Hashtag” 分别在Google学术、IEEE、ACM、Springer、Web of Science中进行检索, 时间不限, 拣选出标题或摘要中出现关键词的文献, 并通过人工阅读去除不相关的文献。经过梳理, 从Hashtag相关基础研究、Hashtag关键技术以及Hashtag应用三个层面进行总结。Hashtag相关基础研究层面包括Hashtag的主要功能、Hashtag基本特性等; Hashtag关键技术层面包括Hashtag及微博短文本的预处理、Hashtag分类与聚类等; Hashtag应用层面包括基于Hashtag的情感识别、热点事件发现等研究。

基于上述对Hashtag各个研究层面的总结, 得出当前Hashtag研究存在的问题, 如用户使用中的问题、Hashtag挖掘与应用中存在的问题、Hashtag语义组织问题、多语言Hashtag研究问题, 最后提出Hashtag的未来研究方向。Hashtag研究层次图如图1所示:

	Figure Option View Download New Window
	图1 Hashtag研究层次图

2 Hashtag相关基础研究

Hashtag在突发事件监测^[2]、流行电视节目评论监测^[3]和公众对政府的态度监测^[4]等方面发挥重要的作用。本节对Hashtag的主要功能、基本特性及Hashtag使用现状的相关研究进行梳理。

2.1 Hashtag主要功能

Hashtag主要具有两种功能:

(1) 主题标注: 在微博中, 用户会使用一个具有代表性的主题词, 标注自己所发的微博, 因而Hashtag具有主题标注的功能。

(2) 话题参与: Hashtag另一主要的目的是发挥“ 话题参与” 的功能, 将同一个话题下的信息汇聚起来, 提高信息传播和组织的效率^{[5, 6, 7]}。

在微博中, 若两个用户之间没有相互关注, 那么这两个用户几乎无法共享信息, 从而限制了信息的交流。而Hashtag能很好地解决这个问题, Messina^[8]指出Hashtag具有内容过滤, 改善信息环境以及对信息按照话题进行分组的功能。因为Hashtag具有利于用户交流和分享信息的特点^[9], 所以用户能够通过Hashtag形成一种类似“ 兴趣小组” 的关系, 这种关系使得未互相关注的用户也能进行信息的交流和分享。用户因为对同一个话题感兴趣而汇聚在一起, 在此话题之外, 用户可能极少产生信息的交集。这使得用户既能够获得足够的、有效的信息, 又不会受到太多无关信息的干扰, 极大提高了用户获取信息的效率。

2.2 Hashtag基本特性

研究者主要关注Hashtag的两种基本特性: Hashtag的传播特性和流行度特性。Hashtag传播特性包括Hashtag传播过程的时间、社交环境、用户标注动机、Hashtag内容等。例如在商业领域中, 人们更关注商品或品牌等相关话题在微博中的传播。Micro- Meme是社交网络中一种重要的话题形式^[9], Tsur等^[10]对Micro-Meme中的Hashtag进行研究, 指出话题的内容对其传播具有重要影响。Chang^[11]结合创新扩散理论(Diffusion of Innovations)研究Hashtag的动态传播, 从Hashtag自身的特征、所在社区、时间因素、社交系统4个方面分析与Hashtag的传播特性相关的因素, 认为创新传播理论能够很好地解释Hashtag的传播特性。

Hashtag的流行度特性包括Hashtag在一段时间内被使用的状态, 这种状态主要通过Hashtag的频次界定。Kong等^[12]根据Hashtag生命周期中的频次变化定义Hashtag的4种流行度: 出现、爆发、平静、沉寂, Ma等^{[13, 14]}也按照Hashtag的使用频率划分Hashtag的流行度。通过对流行度的划分可以将Hashtag的流行度预测问题转化为分类问题, 按照不同的频次等级对Hashtag进行类别划分, 使用分类器对Hashtag进行流行度类别的预测, 从而预测Hashtag在未来的使用频次。

2.3 Hashtag使用现状

在进行Hashtag标注中, 有经验的用户会寻找一个使用人数最多的Hashtag标注自己的博文, 以便让自己发表的信息让更多的用户看到^[15]。在这个过程中, 一些信息表达能力低的Hashtag就会因为使用人数过少而趋向于沉寂。尤其是在一些突发事件的初期, 用户为了快速地传递出紧急消息, 会随机选择一些Hashtag, 这时会出现大量不同的Hashtag以及一些难以理解其含义的Hashtag, 导致信息传播效率的降低^[16]。但是随着事件的发展, 最能表示出事件关键信息并且形式简洁的Hashtag将逐渐被更多用户使用, 于是大部分用户发表的信息就被汇集在一个或某几个Hashtag信息流中, 为信息的组织和分析提供了很大的便利。

已经有很多学者意识到Hashtag在信息组织方面的优势^{[17, 18, 19]}, 但由于大部分用户缺少使用Hashtag的习惯, 并且微博平台中缺少Hashtag标注规则^[20], 使得Hashtag在信息组织和信息收集方面的优势没有能够很好地体现出来。

3 Hashtag的预处理与权重计算

在推荐Hashtag、Hashtag分类与聚类之前, 需要对Hashtag及微博短文本进行预处理。预处理包括Hashtag本身的预处理、微博文本的预处理以及针对用户的预处理。目前已有很多针对Twitter文本处理的开源工具, 如TweetNLP, 提供了针对Twitter环境下的英文分词、词性标注等功能^[21]。同时需要对提取的特征进行权重计算, 特征的权重主要用来衡量特征对最终结果的重要程度。特征权重计算方法有Term Frequency- Inverse Document Frequency(TF-IDF)、Hashtag Frequency- Inverse Hashtag Ubiquity(HF-IHU)等方法。

(1) Hashtag及短文本预处理

Hashtag中存在的干扰因素有缩写、网络俚语等, 这些因素导致用户很难理解Hashtag的含义, 在进行权重计算时也会影响计算结果的准确度。有一些网站, 如WhatTheHashtag^①(①http://wthashtag.com.)、Hashtags.org^②(②https://www.hashtags.org.)提供缩写Hashtag查询的功能。另外, 由于Hashtag中的词汇之间没有间隔, 需要进行一些必要的“ 切分” 处理, 以便进行后续处理。与Hashtag中存在的干扰因素类似, 微博正文中可能包含一些非正规表达, 如网络俚语、缩写词、表情符号、URL等。网络俚语在Twitter中出现的频率非常高, 这类词汇与一些其他的完整词汇表达了相似的含义, 在语义上高度相关, 常用的处理方法是使用网络俚语词典^③(③http://www.noslang.com/diction.)将这些词汇替换成完整词汇^[22]。

针对用户的预处理主要是处理机器人账户, 机器人账户一般由程序控制, 会自动发送一些广告信息。机器人账户会在一条微博中标注多个Hashtag。这类微博文本中包含很多Hashtag, 且没有实际意义, 因此需要去除^[23]。用户在Micro-Meme中标注的Hashtag大多与主题无关, 在Hashtag推荐中, 需要将这种噪音去除。

(2) Hashtag推荐和挖掘中的权重计算方法

在Hashtag的推荐问题中, Zangerle等^[24]和Kywe等^[25]使用TF-IDF计算Hashtag的权重, 度量微博文本之间的相似度。Mazzia等^[22]只使用IDF作为词汇的权重计算方法。之后Zangerle等^[26]在Hashtag推荐中分析了5种相似度计算方法, 分别是: TF-IDF与余弦相似度; BM2.5与余弦相似度; Dice Coefficient; Jaccard Similarity; Levenshtein Distance, 结果显示TF-IDF优于其他传统的加权方法。

但也有学者认为TF-IDF不适合用在短文本的特征权重计算中^[27], 因而根据TF-IDF思想提出类似的方法。Xiao等^[28]从Hashtag与词汇的角度出发, 将Hashtag看作文档, 提出了Term Frequency-Inverted Hashtag Frequency (TF-IHF)和Probabilistic Inside- Outside Log (P-IOLogH)方法。Otsuka等^[29]提出了HF-IHU方法, 同样借鉴了TF-IDF思想。短文本的词汇频率分布与长文本不同, 一条微博文本中的词汇一般不会重复出现, 去除停用词后, 其余词汇的TF值大部分都是相等的, 因此不适合用在短文本计算中。

4 Hashtag推荐技术

Hashtag推荐的目的是从微博文本中抽取合适的Hashtag推荐给用户, 主要依据文本内容与用户信息提取关键词作为Hashtag。其中, 文本内容指用户输入的微博文本, 用户信息主要指用户的关注关系、转发关系、用户的兴趣等。相似的用户更有可能使用相似的Hashtag, 因此有学者使用协同过滤方法推荐Hashtag, 找到相似的用户, 从相似的用户中选择Hashtag^[30]。此外, 还可依据Hashtag自身的信息, 如Hashtag的频次、时间等属性进行推荐。Yu等^[31]将Hashtag分为时间敏感和时间不敏感两种类型, 结合Hashtag的频次信息推荐Hashtag。综上, 推荐Hashtag的方法按照是否利用了用户的信息可以分为个性化推荐和非个性化推荐。

Hashtag推荐方法按照使用的模型可以粗略分为: 简单统计、机器学习、主题模型三种。简单统计方法, 主要依据Hashtag的频次、Hashtag与微博文本的相似度、微博文本之间的相似度等方法对Hashtag进行排序, 向用户推荐排名靠前的Hashtag。基于机器学习的推荐方法中, 研究者通常将Hashtag推荐问题转化为分类问题, 利用朴素贝叶斯、神经网络等方法进行Hashtag推荐^{[22, 32]}。基于主题模型的推荐方法主要依据文本的主题信息推荐合适的Hashtag^{[33, 34]}。除了基本的主题模型外, 有研究者将主题模型与统计机器翻译中的翻译模型相结合, 提出了主题翻译模型^{[35, 36]}。

简单统计方法与基于机器学习的推荐方法相比, 前者的模型较为简单, 许多有用的信息都未能考虑到。基于机器学习的推荐方法需要大量的训练数据用以训练事先定义的模型, Krokos等^[37]通过实验证实支持向量机在同等数据量情况下, 比其他分类器要花费更多的训练时间, 说明一些有监督的机器学习算法不适合数据快速更新的实时环境。在实时的推荐系统中, Hashtag时间因素是影响推荐效果的一个重要因素, 很多学者注意到这一问题^{[38, 39]}, Lu等^[40]认为Hashtag推荐必须考虑Tweets中主题随时间的演变问题, 基于此提出了TOT-MMM方法。不同的Hashtag推荐方法、所用信息及数据规模如表1所示:

表1 Hashtag推荐方法一览表

5 Hashtag分类与聚类研究

主要的Hashtag分类方法有朴素贝叶斯、支持向量机、最近邻等, Hashtag聚类算法有K均值、凝聚文本聚类等方法。Hashtag分类和聚类的主要难点在于特征的提取, 研究者从很多不同的角度进行特征提取, 如内容特征、上下文特征等。

(1) Hashtag分类

Hashtag分类技术被应用在多个场景中, 研究者提出了各种特征以适应不同场景的特点。在长文本分类算法中, 主要使用文本中的词汇特征对文本进行表示, 在微博短文本中词项特征稀疏, 因此要对特征进行扩展。例如在Hashtag流行度预测问题中, Ma等^[13]共使用了7种内容特征和11种上下文特征, 内容特征主要指文本内容信息, 如Hashtag分词单词的个数、Tweets包含的URL等; 上下文特征有用户数量、Tweets数量等。

除了直接提取特征外, Wang等^[46]在Hashtag情感分类问题中, 利用Hashtag之间的共现信息构建Hashtag图模型, 并使用三种集成分类算法对Hashtag进行情感分类: Loopy Belief Propagation (LBP)、Relaxation Labeling (RL)和Iterative Classiﬁ cation Algorithm(ICA)。Hashtag分类方法还有朴素贝叶斯^[22]、支持向量机^[12]等。利用朴素贝叶斯对Hashtag进行分类时一般只用到词项特征, 考虑的因素过少。支持向量机能够将更多的特征加入模型中, 但在面对大规模数据集时, 训练支持向量机模型需要耗费大量的时间和计算资源。

(2) Hashtag聚类

Hashtag的聚类技术大多沿用了传统的聚类方法, 聚焦于应用层面, 主要应用在热点事件发现中, 通过对微博文本中包含的Hashtag进行聚类, 找到相关的Hashtag及微博文本, 根据不同类簇中存在的用户数量和微博数量发现微博中的热点事件。在Hashtag聚类中, 一般的做法是将包含同一个Hashtag的微博文本聚集起来对Hashtag进行表示。Muntean等^[47]通过上述方法得到Hashtag的表示文档, 使用向量空间模型文档进行表示, 使用K-means进行聚类挖掘Hashtag的含义。

在实际应用中需要考虑到微博的实时性、数据的动态更新等问题, Feng等^[48]将Hashtag的时间特征加入模型中, 用以发现不同时间段的热点事件, 并使用增量学习的方法解决模型的更新问题。应依据不同的特征, 调整分类和聚类的模型以适应不同的应用领域, 综合评价模型的稳定性和最终效果。

6 Hashtag应用研究

当前, 基于的Hashtag应用研究主要集中在情感识别与热点事件发现两个方面。研究者将Hashtag作为微博文本的情感标签, 解决情感识别中训练数据的获取问题, 以及改善情感分类的效果。在热点事件中, Hashtag被用来收集相关信息, 挖掘事件中用户的意见或情感信息, 并有学者使用机器学习的方法对Hashtag进行聚类, 自动发现热点事件。

6.1 基于Hashtag的情感识别

在微博文本中, 除了情感词汇外, Hashtag、表情符号等也是能够表达情感信息的特征^[49], Barbosa等^[50]收集了2010年Twitter中关于巴西总统选举的数据, 发现29%的Hashtag含有情感信息, 其中30%是消极的, 54%是积极的, 16%是模糊的。这一研究表明Hashtag中含有用户的情感信息, 并且能够从中判断用户对某一事件的情感倾向。

在情感识别中, 监督学习需要一批标注好的训练数据集, 在数据量巨大的情况下, 人工标注费时费力。Davidov等^[51]认为Hashtag可以作为Tweets的情感标签, 省去人工标注的过程, 直接获得大量的训练语料。Mohammad等^[52]也将Hashtag作为Tweets的情感标签, 从Tweets中抽取情感词汇, 构建大规模的情感词典。与上述做法不同, Qadir等^[53]使用小部分Hashtag作为种子标签, 然后使用这部分数据训练情感分类器, 学习到更多的Hashtag情感标签, 改善分类器的效果。在突发事件中, 将Hashtag作为微博文本的情感标签, 能够快速获得针对突发事件的情感语料, 用于分析用户的情感信息, 节省大量时间。或者结合基于Hashtag的热点事件发现技术, 做到对热点事件的及时响应和分析。

6.2 基于Hashtag的热点事件发现

已有很多学者利用Hashtag收集突发事件及热门事件中的信息, 使用一些常用的数据分析方法对事件进行研究。如Potts等^[16]研究新西兰2010年和2011年发生的两场地震, 以及2011年日本发生的地震灾害中用户使用Hashtag进行交流的情况。除了自然灾害, Hashtag还被应用于美国总统选举、伦敦骚乱等热点事件的分析^{[54, 55]}。

上述研究能够对事件进行深入的分析, 但一般都是事件发生后才能进行研究, 无法做到对事件进行预警或者在事件发生后及时发现, 以便迅速做出响应。通过机器学习的方法, 对实时的微博信息流进行分析和监测, 比如监测Hashtag使用频次, 或者对Hashtag进行聚类, 能够在大规模数据的基础上快速发现热点事件。在同一个热点事件中可能存在多个Hashtag, 有必要先挖掘出Hashtag之间的话题相关性, 提高热点事件发现的精确度^[56]。另外, Cui等^[23]发现真正指向突发事件的Hashtag的频率并不是一定增高的, 关注人数多的事件不一定是重要的事件。基于Hashtag应用的具体场景、数据规模及来源、方法如表2所示:

表2 Hashtag应用类型一览表

7 Hashtag研究与应用存在的问题

(1) 用户使用中的问题

在用户使用Hashtag方面, 主要有两方面的问题: 一是Hashtag总体标注数量低; 二是同一个事件中存在多个不同的Hashtag, 造成了信息的分散。第一个问题的原因是只有少量用户标注Hashtag, 参与到Hashtag的话题讨论中。第二个问题的原因是Hashtag的使用缺乏规则, 用户在标注Hashtag时具有随意性和随机性, 同一事件存在多个不同的Hashtag, 给信息收集造成了较大的困难。

上述问题影响了Hashtag挖掘和应用的效果, 若能为用户自动推荐合适的Hashtag, 则能够在一定程度上解决上述问题。Hashtag自动推荐技术根据用户信息、Hashtag信息和文本内容信息为用户推荐合适的Hashtag, 降低用户标注Hashtag的难度, 是目前解决上述问题的主要方法。

(2) Hashtag挖掘与应用中存在的问题

社交网络是一个时刻都有大量数据产生的平台, 并且与现实联系紧密, 数据产生和变化速度非常快, 因此Hashtag具有很强的时效性。无论是Hashtag推荐还是利用Hashtag进行热点事件发现都应关注模型的更新问题, 例如Hashtag推荐应该是动态的、实时的, 而一些有监督的方法很难满足上述条件。另外, 在数据量巨大的情况下, 如何快速处理海量数据也是一个难题。

对于利用Hashtag发现热点事件, 现有研究往往只关注出现频次较高的Hashtag, 对低频Hashtag的热点监测研究关注较少。现有的方法很难识别出可能产生重大影响的, 但较少人关注的事件。

(3) Hashtag的语义组织问题

发现Hashtag之间的语义关联, 利用更加合理的知识组织方式来揭示Hashtag之间的语义关系能够解决诸多问题, 如发现缩写的Hashtag或网络俚语的具体含义等问题。通过挖掘Hashtag的语义信息能够帮助理解Hashtag的含义, 构建Hashtag语义关系网, 改善Hashtag挖掘和热点事件发现的效果。

针对一般社会化标签的语义组织研究已经较多, 通过构建社会化标签的语义网络, 有效地提高了信息检索的效率, 但针对Hashtag的语义组织研究还非常缺乏。发现Hashtag之间的语义关系能够帮助发现相似的Hashtag, 改善单纯依靠某一Hashtag的出现频率发现热点事件的效果。

(4) 多语言Hashtag研究问题

社交网络平台是一个开放的平台, 随着全球交流的日益紧密, 各个国家的用户使用不同的语言在社交网络中交流, 产生了大量多语言的数据。例如在Twitter中, “ H7N9” 的检索结果中可能包含多种语言的Tweets以及Hashtag, 对于禽流感这种全球性的问题来说, 有必要收集各个语种的信息, 对问题进行全面分析。

目前仅有少数多语言社会化标签的相关研究^[58], 关于多语言Hashtag的研究也未引起学术界的关注。与多语言社会化标签类似, 多语言Hashtag可以通过双语词典、机器翻译的方法实现不同语种的映射, 这将对研究全球性的事件监测等应用场景提供帮助。

8 未来研究方向

Hashtag研究涉及多个学科和多个领域, 如传播学、行为学等学科, 以及数据挖掘、自然语言处理等领域。未来关于Hashtag的研究方向主要体现在理论研究、技术研究以及应用研究等三个方面。

(1) Hashtag理论研究方向

用户标注Hashtag时的动机、影响Hashtag标注的因素以及Hashtag传播的路径是未来Hashtag理论研究的主要方向。还应结合传播学等理论方法研究Hashtag的传播方式和路径, 并对Hashtag类型进行更细的划分。

一般地, 用户在标注Hashtag时有两种情况, 第一种是提前意识到使用特定的Hashtag参与到话题中; 第二种是写好微博正文后, 再给微博正文标注一个相关Hashtag^[34]。上述两种情况涉及用户标注Hashtag时的动机, 有重要的研究价值; 针对第二种情况, 未来应注重研究影响用户标注Hashtag的因素。Hashtag的传播路径研究对微博平台信息的监测和用户舆论的分析具有重要意义。

(2) Hashtag技术研究方向

与Hashtag相关的技术主要有Hashtag推荐、分类、聚类等, 这些技术都需要从Hashtag自身信息或者环境信息中提取特征, 现有的特征主要提取自用户信息、内容信息等。上述信息还有待更深入的挖掘, 例如Hashtag类型信息、用户的语种、国家等信息。

此外, 还应关注微博文本的主题漂移现象, 社交网络平台数据更新速度非常快, 同一个Hashtag在不同的时间相关的主题也可能不同。在一些热点事件中, 主题漂移现象尤其明显, 主题会随着事件的发展而发生改变。面对快速变化的环境, 无监督的方法和增量学习的方法在实际应用中应该能取得比有监督的学习方法更好的效果。

(3) 应用研究方向

社会计算是使用系统科学、人工智能、数据挖掘等科学计算理论作为研究方法, 将社会科学理论与计算理论相结合的一个领域^[59], 基于Hashtag的应用在未来可借鉴计算社会学的理论和方法, 从社交网络中挖掘更深层的知识, 并结合语义、机器翻译等技术研究多语言方面的应用。

Hashtag最大的价值在于汇聚信息流, 为收集信息提供了一系列便利, 借助使用人数众多的社交网络平台将这种价值最大化, Hashtag从不同层次和多个角度反映了社交网络中用户的行为信息^[60]。因此, 基于Hashtag的热点事件发现有广阔的发展空间, 并将取得令人满意的效果。

参考文献

View Option

[1]	Gupta M, Li R, Yin Z, et al. Survey on Social Tagging Techniques[J]. ACM SIGKDD Explorations Newsletter, 2010, 12(1): 58-72. [本文引用:1]
[2]	Hughes A L, Palen L. Twitter Adoption and Use in Mass Convergence and Emergency Events[J]. International Journal of Emergency Management, 2009, 6(3-4): 248-260. [本文引用:1]
[3]	Deller R A. Twittering on: Audience Research and Participation Using Twitter[J]. Participations, 2011, 8(1): 216-245. [本文引用:1]
[4]	Small T A. What the Hashtag? A Content Analysis of Canadian Politics on Twitter[J]. Information, Communication & Society, 2011, 14(6): 872-895. [本文引用:1]
[5]	Dwyer N, Marsh S. What can the Hashtag# Trust Tell Us about How Users Conceptualise Trust? [C]. In: Proceedings of the 12th Annual International Conference on the Privacy, Security and Trust (PST). IEEE, 2014: 398-402. [本文引用:1]
[6]	Zappavigna M. Discourse of Twitter and Social Media: How We Use Language to Create Affiliation on the Web[M]. Bloomsbury Academic, 2012. [本文引用:1]
[7]	Ivanova M. Understand ing Microblogging Hashtags for Learning Enhancement[J]. Form@re-Open Journal per la Formazione in Rete, 2011, 11(74): 17-23. [本文引用:1]
[8]	Messina C. Groups for Twitter; or a Proposal for Twitter Tag Channels [EB/OL]. [2015-05-01]. http://factoryjoe.com/blog/2007/08/25/groups-for-twitter-or-a-proposal-for-twitter-tag-channels. [本文引用:1]
[9]	Huang J, Thornton K M, Efthimiadis E N. Conversational Tagging in Twitter [C]. In: Proceedings of the 21st ACM Conference on Hypertext and Hypermedia. ACM, 2010: 173-178. [本文引用:2]
[10]	Tsur O, Rappoport A. What’s in a Hashtag?: Content Based Prediction of the Spread of Ideas in Microblogging Communities [C]. In: Proceedings of the 5th ACM International Conference on Web Search and Data Mining. ACM, 2012: 643-652. [本文引用:1]
[11]	Chang H C. A New Perspective on Twitter Hashtag Use: Diffusion of Innovation Theory [C]. In: Proceedings of the 73rd ASIS&T Annual Meeting on Navigating Streams in an Information Ecosystem. 2010. [本文引用:1]
[12]	Kong S, Mei Q, Feng L, et al. Predicting Bursts and Popularity of Hashtags in Real-time [C]. In: Proceedings of the 37th International ACM SIGIR Conference on Research & Development in Information Retrieval. ACM, 2014: 927-930. [本文引用:2]
[13]	Ma Z, Sun A, Cong G. On Predicting the Popularity of Newly Emerging Hashtags in Twitter[J]. Journal of the American Society for Information Science and Technology, 2013, 64(7): 1399-1410. [本文引用:2]
[14]	Ma Z, Sun A, Cong G. Will this# Hashtag be Popular Tomorrow? [C]. In: Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2012: 1173-1174. [本文引用:1]
[15]	van den Berg J A. The Story of the Hashtag (#): A Practical Theological Tracing of the Hashtag (#) Symbol on Twitter[J]. HTS Teologiese Studies/Theological Studies, 2014, 70(1): 1-6. [本文引用:1]
[16]	Potts L, Seitzinger J, Jones D, et al. Tweeting Disaster: Hashtag Constructions and Collisions [C]. In: Proceedings of the 29th ACM International Conference on Design of Communication. ACM, 2011: 235-240. [本文引用:2]
[17]	Dixon K. Feminist Online Identity: Analyzing the Presence of Hashtag Feminism[J]. Journal of Arts and Humanities, 2014, 3(7): 34-40. [本文引用:1]
[18]	Komori L. We Shouldn’t have to Smoke and Hide the Legalize Hashtag as a Platform for Collective Identity and Collective Action Framing [D]. University of Alberta, 2013. [本文引用:1]
[19]	Skalbeck R V. Anatomy of a Conference Twitter Hashtag: #AALL2010 [OL]. Digital Preservation Publications. [2011-01-07]. http://scholarship.law.georgetown.edu/digitalpreservation_publications/5. [本文引用:1]
[20]	Kywe S M, Lim E P, Zhu F. A Survey of Recommender Systems in Twitter [C]. In: Proceedings of the 4th International Conference on Social Informatics. Springer- Verlag, 2012: 420-433. [本文引用:1]
[21]	Gimpel K, Schneider N, O’Connor B, et al. Part-of-Speech Tagging for Twitter: Annotation, Features, and Experiments [C]. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, 2011: 42-47. [本文引用:1]
[22]	Mazzia A, Juett J. Suggesting Hashtags on Twitter [EB/OL]. [2015-05-01]. http://www-personal.umich.edu/~amazzia/pubs/545-final.pdf. [本文引用:4]
[23]	Cui A, Zhang M, Liu Y, et al. Discover Breaking Events with Popular Hashtags in Twitter[C]. In: Proceedings of the 21st ACM International Conference on Information and Knowledge Management. ACM, 2012: 1794-1798. [本文引用:2]
[24]	Zangerle E, Gassler W, Specht G. Recommending#-Tags in Twitter [C]. In: Proceedings of the Workshop on Semantic Adaptive Social Web (SASWeb 2011) CEUR Workshop. 2011: 67-78. [本文引用:1]
[25]	Kywe S M, Hoang T A, Lim E P, et al. On Recommending Hashtags in Twitter Networks [C]. In: Proceedings of the 4th International Conference on Social Informatics. Springer, 2012: 337-350. [本文引用:1]
[26]	Zangerle E, Gassler W, Specht G. On the Impact of Text Similarity Functions on Hashtag Recommendations in Microblogging Environments[J]. Social Network Analysis and Mining, 2013, 3(4): 889-898. [本文引用:1]
[27]	Li Z, Zhou D, Juan Y F, et al. Keyword Extraction for Social Snippets [C]. In: Proceedings of the 19th International Conference on World Wide Web. ACM, 2010: 1143-1144. [本文引用:1]
[28]	Xiao F, Noro T, Tokuda T. News-Topic Oriented Hashtag Recommendation in Twitter Based on Characteristic Co- occurrence Word Detection [C]. In: Proceedings of the 12th International Conference on Web Engineering. Springer, 2012: 16-30. [本文引用:1]
[29]	Otsuka E, Wallace S A, Chiu D. Design and Evaluation of a Twitter Hashtag Recommendation System [C]. In: Proceedings of the 18th International Database Engineering & Applications Symposium. ACM, 2014: 330-333. [本文引用:1]
[30]	Wang Y, Qu J, Liu J, et al. What to Tag Your Microblog: Hashtag Recommendation Based on Topic Analysis and Collaborative Filtering [C]. In: Proceedings of the 16th Asia-Pacific Web Conference on Web Technologies and Applications, Changsha, China. Springer, 2014: 610-618. [本文引用:1]
[31]	Yu J, Shen Y. Evolutionary Personalized Hashtag Recommendation [C]. In: Proceedings of the 15th International Conference on Web-Age Information Management. Springer, 2014: 34-37. [本文引用:1]
[32]	Tomar A, Godin F, Vand ersmissen B, et al. Towards Twitter Hashtag Recommendation Using Distributed Word Representations and a Deep Feed Forward Neural Network [C]. In: Proceedings of 2014 International Conference on the Advances in Computing, Communications and Informatics. IEEE, 2014: 362-368. [本文引用:1]
[33]	She J, Chen L. TOMOHA: Topic Model-based Hashtag Recommendation on Twitter [C]. In: Proceedings of the 23rd International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2014: 371-372. [本文引用:1]
[34]	Ma Z, Sun A, Yuan Q, et al. Tagging Your Tweets: A Probabilistic Modeling of Hashtag Annotation in Twitter [C]. In: Proceedings of the 23rd ACM International Conference on Information and Knowledge Management. ACM, 2014: 999-1008. [本文引用:2]
[35]	Zhang Q, Gong Y, Huang X, et al. Time-aware Personalized Hashtag Recommendation on Social Media [C]. In: Proceedings of the 25th International Conference on Computational Linguistics (COLING 2014), Dublin, Ireland . 2014: 203-212 [本文引用:1]
[36]	Ding Z, Qiu X, Zhang Q, et al. Learning Topical Translation Model for Microblog Hashtag Suggestion [C]. In: Proceedings of the 23rd International Joint Conference on Artificial Intelligence. AAAI Press, 2013: 2078-2084. [本文引用:1]
[37]	Krokos E, Samet H. A Look into Twitter Hashtag Discovery and Generation[C]. In: Proceedings of the 7th ACM SIGSPATIAL International Workshop on Location-Based Social Networks, Dallas, TX, USA. 2014. [本文引用:1]
[38]	Gruetze T, Yao G, Krestel R. Learning Temporal Tagging Behaviour [C]. In: Proceedings of the 5th Temporal Web Analytics Workshop at the 24th International World Wide Web Conference, Florence, Italy. ACM, 2015. [本文引用:1]
[39]	Harvey M, Crestani F. Long Time, No Tweets! Time-aware Personalised Hashtag Suggestion [C]. In: Proceedings of the 37th European Conference on IR Research (ECIR 2015), Vienna, Austria. 2015: 581-592. [本文引用:1]
[40]	Lu H, Lee C. The Topic-Over-Time Mixed Membership Model (TOT-MMM): A Twitter Hashtag Recommendation Model that Accommodates for Temporal Clustering Effects[J]. IEEE Intelligent Systems, 2015. (Accepted) [本文引用:1]
[41]	Zangerle E, Gassler W, Specht G. Using Tag Recommendations to Homogenize Folksonomies in Microblogging Environments [C]. In: Proceedings of the 3rd International Conference on Social Informatics. Springer-Verlag, 2011: 113-126. [本文引用:1]
[42]	Tariq A, Karim A, Gomez F, et al. Exploiting Topical Perceptions over Multi-Lingual Text for Hashtag Suggestion on Twitter [C]. In: Proceedings of the 26th International Florida Artificial Intelligence Research Society Conference. AAAI Press 2013: 474-479. [本文引用:1]
[43]	Li T, Wu Y, Zhang Y. Twitter Hash Tag Prediction Algorithm [C]. In: Proceedings of the ICOMP’11-The 2011 International Conference on Internet Computing, 2011. [本文引用:1]
[44]	Shin Y, Lee S J, Park J. Composition Pattern Oriented Tag Extraction from Short Documents Using a Structural Learning Method[J]. Knowledge and Information Systems, 2014, 38(2): 447-468. [本文引用:1]
[45]	Vergeest L. Using N-grams and Word Embeddings for Twitter Hashtag Suggestion [D]. Holland Tilburg: Tilburg University, 2014. [本文引用:1]
[46]	Wang X, Wei F, Liu X, et al. Topic Sentiment Analysis in Twitter: A Graph-based Hashtag Sentiment Classification Approach [C]. In: Proceedings of the 20th ACM International Conference on Information and Knowledge Management. ACM, 2011: 1031-1040. [本文引用:1]
[47]	Muntean C I, Morar G A, Moldovan D. Exploring the Meaning Behind Twitter Hashtags Through Clustering [C]. In: Proceedings of the Business Information Systems Workshops. Springer, 2012: 231-242. [本文引用:1]
[48]	Feng W, Zhang C, Zhang W, et al. StreamCube: Hierarchical Spatio-temporal Hashtag Clustering for Event Exploration over the Twitter Stream [C]. In: Proceedings of the 31st IEEE International Conference on Data Engineering (ICDE), 2015. [本文引用:1]
[49]	蒋盛益, 麦智凯, 庞观松, 等. 微博信息挖掘技术研究综述[J]. 图书情报工作, 2012, 56(17): 136-142. (Jiang Shengyi, Mai Zhikai, Pang Guansong, et al. A Survey of Microblog Date Mining[J]. Library and Information Service, 2012, 56(17): 136-142. ) [本文引用:1]
[50]	Barbosa G A R, Silva I S, Zaki M, et al. Characterizing the Effectiveness of Twitter Hashtags to Detect and Track Online Population Sentiment [C]. In: Proceedings of the CHI’12 Extended Abstracts on Human Factors in Computing Systems. ACM, 2012: 2621-2626. [本文引用:1]
[51]	Davidov D, Tsur O, Rappoport A. Enhanced Sentiment Learning Using Twitter Hashtags and Smileys [C]. In: Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics, 2010: 241-249. [本文引用:1]
[52]	Mohammad S M, Kiritchenko S. Using Hashtags to Capture Fine Emotion Categories from Tweets[J]. Computational Intelligence, 2014. DOI: DOI:10.1111/coin.12024. [本文引用:1]
[53]	Qadir A, Riloff E. Learning Emotion Indicators from Tweets: Hashtags, Hashtag Patterns, and Phrases [C]. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar. Association for Computational Linguistics, 2014: 1203-1209. [本文引用:1]
[54]	Hadgu A T, Garimella K, Weber I. Political Hashtag hijacking in the US [C]. In: Proceedings of the 22nd International Conference on World Wide Web Companion. International World Wide Web Conferences Steering Committee, 2013: 55-56. [本文引用:1]
[55]	Glasgow K, Fink C. Hashtag Lifespan and Social Networks During the London Riots [C]. In: Proceedings of the 6th International Conference on Social Computing, Behavioral- Cultural Modeling and Prediction. Springer, 2013: 311-320. [本文引用:1]
[56]	胡长龙, 唐晋韬, 王挺. 中文微博的 Hashtag 话题相关性分析[J]. 计算机科学, 2013, 40(11A): 235-237. (Hu Changlong, Tang Jintao, Wang Ting. Topical Relevance Analysis of Hashtags in Chinese Microblogging Environment[J]. Computer Science, 2013, 40(11A): 235-237. ) [本文引用:1]
[57]	Ozdikis O, Senkul P, Oguztuzun H. Semantic Expansion of Hashtags for Enhanced Event Detection in Twitter [C]. In: Proceedings of the 1st International Workshop on Online Social Systems. Citeseer, 2012. [本文引用:1]
[58]	章成志, 汤丽娟. 基于多语言社会化标签聚类的潜在社会关系网络发现[J]. 情报理论与实践, 2013, 36(9): 67-71. (Zhang Chengzhi, Tang Lijuan. Latent Social Network Detection Based on Clustering of Multilingual Social Tag[J]. Information Studies: Theory & Application, 2013, 36(9): 67-71. ) [本文引用:1]
[59]	孟小峰, 李勇, 祝建华. 社会计算: 大数据时代的机遇与挑战[J]. 计算机研究与发展, 2013, 50(12): 2483-2491. (Meng Xiaofeng, Li Yong, Zhu Jianhua. Social Computing in the Era of Big Data: Opportunities and Challenges[J]. Journal of Computer Research and Development, 2013, 50(12): 2483-2491. ) [本文引用:1]
[60]	Wang Y, Zheng B. On Macro and Micro Exploration of Hashtag Diffusion in Twitter [C]. In: Proceedings of 2014 IEEE/ACM International Conference on the Advances in Social Networks Analysis and Mining (ASONAM). IEEE, 2014: 285-288. [本文引用:1]

2010

0.0

... 目前已经有很多学者系统地研究了传统的社会化标签理论与技术^[1], Hashtag可以看作一种特殊的社会化标签, 目前尚缺乏关于Hashtag的系统化研究 ...

2009

0.0

... 2 Hashtag相关基础研究Hashtag在突发事件监测^[2]、流行电视节目评论监测^[3]和公众对政府的态度监测^[4]等方面发挥重要的作用 ...

2011

0.0

... 2 Hashtag相关基础研究Hashtag在突发事件监测^[2]、流行电视节目评论监测^[3]和公众对政府的态度监测^[4]等方面发挥重要的作用 ...

2011

0.0

... 2 Hashtag相关基础研究Hashtag在突发事件监测^[2]、流行电视节目评论监测^[3]和公众对政府的态度监测^[4]等方面发挥重要的作用 ...

2014

0.0

... 的功能, 将同一个话题下的信息汇聚起来, 提高信息传播和组织的效率^[5,6,7] ...

2012

0.0

... 的功能, 将同一个话题下的信息汇聚起来, 提高信息传播和组织的效率^[5,6,7] ...

2011

0.0

... 的功能, 将同一个话题下的信息汇聚起来, 提高信息传播和组织的效率^[5,6,7] ...

2015

0.0

... 而Hashtag能很好地解决这个问题, Messina^[8]指出Hashtag具有内容过滤, 改善信息环境以及对信息按照话题进行分组的功能 ...

2010

0.0

... 因为Hashtag具有利于用户交流和分享信息的特点^[9], 所以用户能够通过Hashtag形成一种类似#cod#x0201c ...

... Micro- Meme是社交网络中一种重要的话题形式^[9], Tsur等^[10]对Micro-Meme中的Hashtag进行研究, 指出话题的内容对其传播具有重要影响 ...

2012

0.0

... Micro- Meme是社交网络中一种重要的话题形式^[9], Tsur等^[10]对Micro-Meme中的Hashtag进行研究, 指出话题的内容对其传播具有重要影响 ...

2010

0.0

... Chang^[11]结合创新扩散理论(Diffusion of Innovations)研究Hashtag的动态传播, 从Hashtag自身的特征、所在社区、时间因素、社交系统4个方面分析与Hashtag的传播特性相关的因素, 认为创新传播理论能够很好地解释Hashtag的传播特性 ...

2014

0.0

... Kong等^[12]根据Hashtag生命周期中的频次变化定义Hashtag的4种流行度: 出现、爆发、平静、沉寂, Ma等^[13,14]也按照Hashtag的使用频率划分Hashtag的流行度 ...

... Hashtag分类方法还有朴素贝叶斯^[22]、支持向量机^[12]等 ...

2013

0.0

... Kong等^[12]根据Hashtag生命周期中的频次变化定义Hashtag的4种流行度: 出现、爆发、平静、沉寂, Ma等^[13,14]也按照Hashtag的使用频率划分Hashtag的流行度 ...

... 例如在Hashtag流行度预测问题中, Ma等^[13]共使用了7种内容特征和11种上下文特征, 内容特征主要指文本内容信息, 如Hashtag分词单词的个数、Tweets包含的URL等 ...

2012

0.0

... Kong等^[12]根据Hashtag生命周期中的频次变化定义Hashtag的4种流行度: 出现、爆发、平静、沉寂, Ma等^[13,14]也按照Hashtag的使用频率划分Hashtag的流行度 ...

2014

0.0

... 3 Hashtag使用现状在进行Hashtag标注中, 有经验的用户会寻找一个使用人数最多的Hashtag标注自己的博文, 以便让自己发表的信息让更多的用户看到^[15] ...

2011

0.0

... 尤其是在一些突发事件的初期, 用户为了快速地传递出紧急消息, 会随机选择一些Hashtag, 这时会出现大量不同的Hashtag以及一些难以理解其含义的Hashtag, 导致信息传播效率的降低^[16] ...

... 如Potts等^[16]研究新西兰2010年和2011年发生的两场地震, 以及2011年日本发生的地震灾害中用户使用Hashtag进行交流的情况 ...

2014

0.0

... 已经有很多学者意识到Hashtag在信息组织方面的优势^[17,18,19], 但由于大部分用户缺少使用Hashtag的习惯, 并且微博平台中缺少Hashtag标注规则^[20], 使得Hashtag在信息组织和信息收集方面的优势没有能够很好地体现出来 ...

2013

0.0

2011

0.0

2012

0.0

2011

0.0

... 目前已有很多针对Twitter文本处理的开源工具, 如TweetNLP, 提供了针对Twitter环境下的英文分词、词性标注等功能^[21] ...

2015

0.0

... )将这些词汇替换成完整词汇^[22] ...

... Mazzia等^[22]只使用IDF作为词汇的权重计算方法 ...

... 基于机器学习的推荐方法中, 研究者通常将Hashtag推荐问题转化为分类问题, 利用朴素贝叶斯、神经网络等方法进行Hashtag推荐^{[22, 32]} ...

... Hashtag分类方法还有朴素贝叶斯^[22]、支持向量机^[12]等 ...

2012

0.0

... 这类微博文本中包含很多Hashtag, 且没有实际意义, 因此需要去除^[23] ...

... 另外, Cui等^[23]发现真正指向突发事件的Hashtag的频率并不是一定增高的, 关注人数多的事件不一定是重要的事件 ...

2011

0.0

... 在Hashtag的推荐问题中, Zangerle等^[24]和Kywe等^[25]使用TF-IDF计算Hashtag的权重, 度量微博文本之间的相似度 ...

2012

0.0

... 在Hashtag的推荐问题中, Zangerle等^[24]和Kywe等^[25]使用TF-IDF计算Hashtag的权重, 度量微博文本之间的相似度 ...

2013

0.0

... 之后Zangerle等^[26]在Hashtag推荐中分析了5种相似度计算方法, 分别是: TF-IDF与余弦相似度 ...

2010

0.0

... 但也有学者认为TF-IDF不适合用在短文本的特征权重计算中^[27], 因而根据TF-IDF思想提出类似的方法 ...

2012

0.0

... Xiao等^[28]从Hashtag与词汇的角度出发, 将Hashtag看作文档, 提出了Term Frequency-Inverted Hashtag Frequency (TF-IHF)和Probabilistic Inside- Outside Log (P-IOLogH)方法 ...

2014

0.0

... Otsuka等^[29]提出了HF-IHU方法, 同样借鉴了TF-IDF思想 ...

2014

0.0

... 相似的用户更有可能使用相似的Hashtag, 因此有学者使用协同过滤方法推荐Hashtag, 找到相似的用户, 从相似的用户中选择Hashtag^[30] ...

2014

0.0

... Yu等^[31]将Hashtag分为时间敏感和时间不敏感两种类型, 结合Hashtag的频次信息推荐Hashtag ...

2014

0.0

... 基于机器学习的推荐方法中, 研究者通常将Hashtag推荐问题转化为分类问题, 利用朴素贝叶斯、神经网络等方法进行Hashtag推荐^{[22, 32]} ...

2014

0.0

... 基于主题模型的推荐方法主要依据文本的主题信息推荐合适的Hashtag^[33,34] ...

2014

0.0

... 基于主题模型的推荐方法主要依据文本的主题信息推荐合适的Hashtag^[33,34] ...

... 第二种是写好微博正文后, 再给微博正文标注一个相关Hashtag^[34] ...

2014

0.0

... 除了基本的主题模型外, 有研究者将主题模型与统计机器翻译中的翻译模型相结合, 提出了主题翻译模型^[35,36] ...

2013

0.0

... 除了基本的主题模型外, 有研究者将主题模型与统计机器翻译中的翻译模型相结合, 提出了主题翻译模型^[35,36] ...

2014

0.0

... 基于机器学习的推荐方法需要大量的训练数据用以训练事先定义的模型, Krokos等^[37]通过实验证实支持向量机在同等数据量情况下, 比其他分类器要花费更多的训练时间, 说明一些有监督的机器学习算法不适合数据快速更新的实时环境 ...

2015

0.0

... 在实时的推荐系统中, Hashtag时间因素是影响推荐效果的一个重要因素, 很多学者注意到这一问题^[38,39], Lu等^[40]认为Hashtag推荐必须考虑Tweets中主题随时间的演变问题, 基于此提出了TOT-MMM方法 ...

2015

0.0

2015

0.0

2011

0.0

2013

0.0

2011

0.0

2014

0.0

2014

0.0

2011

0.0

... 除了直接提取特征外, Wang等^[46]在Hashtag情感分类问题中, 利用Hashtag之间的共现信息构建Hashtag图模型, 并使用三种集成分类算法对Hashtag进行情感分类: Loopy Belief Propagation (LBP)、Relaxation Labeling (RL)和Iterative Classi#cod#x0fb01 ...

2012

0.0

... Muntean等^[47]通过上述方法得到Hashtag的表示文档, 使用向量空间模型文档进行表示, 使用K-means进行聚类挖掘Hashtag的含义 ...

0.0

... 在实际应用中需要考虑到微博的实时性、数据的动态更新等问题, Feng等^[48]将Hashtag的时间特征加入模型中, 用以发现不同时间段的热点事件, 并使用增量学习的方法解决模型的更新问题 ...

2012

0.0

. 2012, 56(17):136-142

A Survey of Microblog Date Mining

微博信息挖掘技术研究综述

Jiang Shengyi , Mai Zhikai , Pang Guansong

蒋盛益, 麦智凯, 庞观松

Microblog data mining techniques can be utilized to detect the hidden pattern and users’ relationship of microblogs. The paper conducts an introduction and summarization to relevant work on microblogs content mining, which includes short text mining, topic detection and sentiment analysis, and its user relationship discovering, including user characteristics analysis, community detection, opinion leader detection and information transmission patterns. The paper also proposes some defects and perspectives of recent work, which can provide future work with some guidelines.

对目前微博信息挖掘技术中的微博内容挖掘及用户关系挖掘的研究情况及相关方法进行介绍及归纳,认为其中微博内容挖掘主要包括微博短文本挖掘、话题趋势检测、情感倾向性分析等方面,用户关系挖掘主要包括用户群体特性、用户社区发现、意见领袖挖掘及微博传播模式等方面;指出这些方法的局限性,并对微博信息挖掘的发展进行展望,以为进一步研究提供参考。

... 1 基于Hashtag的情感识别在微博文本中, 除了情感词汇外, Hashtag、表情符号等也是能够表达情感信息的特征^[49], Barbosa等^[50]收集了2010年Twitter中关于巴西总统选举的数据, 发现29%的Hashtag含有情感信息, 其中30%是消极的, 54%是积极的, 16%是模糊的 ...

2012

0.0

2010

0.0

... Davidov等^[51]认为Hashtag可以作为Tweets的情感标签, 省去人工标注的过程, 直接获得大量的训练语料 ...

2014

0.0

... Mohammad等^[52]也将Hashtag作为Tweets的情感标签, 从Tweets中抽取情感词汇, 构建大规模的情感词典 ...

2014

0.0

... 与上述做法不同, Qadir等^[53]使用小部分Hashtag作为种子标签, 然后使用这部分数据训练情感分类器, 学习到更多的Hashtag情感标签, 改善分类器的效果 ...

2013

0.0

... 除了自然灾害, Hashtag还被应用于美国总统选举、伦敦骚乱等热点事件的分析^[54,55] ...

2013

0.0

... 除了自然灾害, Hashtag还被应用于美国总统选举、伦敦骚乱等热点事件的分析^[54,55] ...

2013

0.0

. 2013, 40(11A):235-237 DOI:doi:10.3969/j.issn.1002-137X.2013.z2.058

Topical Relevance Analysis of Hashtags in Chinese Microblogging Environment

中文微博的 Hashtag 话题相关性分析

Hu Changlong , Tang Jintao , Wang Ting.

胡长龙, 唐晋韬, 王挺

Hashtag(微博话题词) 是发布者为微博信息创建的话题标签,能帮助用户在海量微博数据中高效发现热点话题。Hashtag由用户创建的特性使得不同的Hashtag可能代表着同一个话题,挖掘Hashtag之间的话题相关性将有助于热点话题发现和聚合展示。研究了Hashtag之间相关性分析问题,抽取了Hashtag文本特征、微博内容、Hashtag的出现次数-时间分布以及Hashtag共现等一系列特征,以分析Hashtag之间的话题相关性。在新浪微博数据上的实验结果显示,这一系列特征组合能较好地帮助Hashtag相关性分析。

... 在同一个热点事件中可能存在多个Hashtag, 有必要先挖掘出Hashtag之间的话题相关性, 提高热点事件发现的精确度^[56] ...

2012

0.0

2013

0.0

. 2013, 36(9):67-71

Latent Social Network Detection Based on Clustering of Multilingual Social Tag

基于多语言社会化标签聚类的潜在社会关系网络发现

Zhang Chengzhi , Tang Lijuan.

章成志, 汤丽娟

文章采用分裂式层次聚类算法分别对中英文标签进行聚类,在标签聚类的基础上,采用先聚类后翻译的映射策略实现中英文标签的映射；在标签聚类及映射的基础上,自动发现多语言环境下潜在的社会关系网络.实验结果表明多语言环境下的社会关系网络比单一语言环境下的社会关系网络更为丰富.

... 目前仅有少数多语言社会化标签的相关研究^[58], 关于多语言Hashtag的研究也未引起学术界的关注 ...

2013

0.0

. 2013, 50(12):2483-2491 DOI:doi:doi:10.7544/issn1000-1239.2013.20130890

Social Computing in the Era of Big Data: Opportunities and Challenges

社会计算:大数据时代的机遇与挑战

Meng Xiaofeng , Li Yong , Zhu Jianhua.

孟小峰, 李勇, 祝建华

With the rapid development of information technology, especially sweeping progress in the Internet of things, cloud computing, social networks and social media, the era of big data is coming. As a data-intensive science, social computing is an emerging thing that leverages the capacity to collect and analyze data with an unprecedented breadth, depth and scale. It represents a new computing paradigm and an interdisciplinary research and application field. A broad comprehension of major topics involved in social computing is important for both scholars and practitioners. In this paper, we give a brief survey of the various research fields in social computing. We present key concepts and analyze state-of-the-art of the field. The article not only sheds insights on social computing, but also affords conduit for future research in the field. Social computing has two distinct trends: One is on the social science issues, such as computational social science, computational sociology, social network analysis, etc; The other is on the use of computational techniques, such as social use, hedonic use and generative use. Finally some new challenges ahead are summarized, including interdisciplinary cooperation and training, big data sharing for scientific data mashups, and privacy protect.

信息技术的飞速发展，特别是物联网、云计算、社交网络、社会媒体以及信息获取技术的进步，数据正以巨大的速度迅速增长和积累，大数据时代已经到来.社会计算作为一种数据密集型科学，在收集和分析数据的广度、深度以及规模上都产生了巨大的影响，社会计算作为一种新的计算范式，产生了一个新的跨学科研究与应用领域，其广阔的研究内容与应用已引起了学术界和工业界的广泛关注.分析了社会计算产生的历史背景及概念、研究现状及大数据带来的机遇，综述了社会计算不同的研究领域，主要有2个发展趋势：一个面向社会科学，包括计算社会科学、计算社会学、社会网络分析等；一个面向技术应用，包括社交应用、娱乐应用、生产应用等，这2种发展趋势同时又相互影响.最后讨论了社会计算研究领域存在的挑战，包括跨学科合作与训练的问题、科学研究中大数据共享问题以及隐私保护.

... 社会计算是使用系统科学、人工智能、数据挖掘等科学计算理论作为研究方法, 将社会科学理论与计算理论相结合的一个领域^[59], 基于Hashtag的应用在未来可借鉴计算社会学的理论和方法, 从社交网络中挖掘更深层的知识, 并结合语义、机器翻译等技术研究多语言方面的应用 ...

2014

0.0

... Hashtag最大的价值在于汇聚信息流, 为收集信息提供了一系列便利, 借助使用人数众多的社交网络平台将这种价值最大化, Hashtag从不同层次和多个角度反映了社交网络中用户的行为信息^[60] ...