中山大学资讯管理学院 广州 510006
中图分类号: G350
通讯作者:
收稿日期: 2016-10-7
修回日期: 2016-11-30
网络出版日期: 2017-02-25
版权声明: 2017 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部
基金资助:
展开
摘要
【目的】通过对网络游记进行情感分析, 发现游客对旅游地情感倾向的时间分布规律。【应用背景】越来越多人通过浏览大量网络游记来收集信息, 制定旅游计划。网络游记成为旅游者搭配旅游地及出游时间的重要参考内容, 也为商家提供了商机。【方法】提出面向网络游记时间特征的情感分析模型, 分析游客情感的时间变化规律。该模型包括5个模块: 网络游记文本内容及旅游时间数据的采集、游记文本预处理、情感标注、按时间段统计游记情感特征分值、游记情感时间特征分析。并从网络抓取4种类型旅游地游记对模型进行实验。【结果】在7类情感中, [好]的情感均值在各旅游地的各月份中总是远高于其他情感, 较为稳定; [好]、[乐]和[恶]在不同月份的波动程度较大; 情感随时间的波动与相应游记数量并不相关, 即传统的旅游地旺季和淡季的划分与游客的实际情感体验并不相关。【结论】该模型能够有效地反映旅游地的游客情感随时间变化的波动, 进而为旅游管理者、潜在旅游者信息获取提供新的信息参考渠道。
关键词:
Abstract
[Objective] This study aims to find the temporal-distribution patterns of tourists’ attitudes towards their destinations through sentiment analysis of travel blogs. [Context] More and more tourists collect information on their destinations from travel blogs, which provide enormous business opportunities. [Methods] We proposed a sentiment analysis model based on temporal characteristics of travel blogs. It includes the following modules: data collection, preprocessing, identifying sentiment words, weight calculation, and analysis. The model was examined with four types of travel blogs. [Results] The number of post with “good” emotion was always higher than others each month. The volatility of “good”, “happiness” and “disgust” emotion was the highest in different months. The volatility emotion over time was not correlated to the number of related travel blogs. There is no relationship between the peak/off seasons and the emotion of tourists. [Conclusions] The proposed model could identify the changing of tourist sentiment over time, which provides new information for tourism managers and potential visitors.
Keywords:
由于旅游地景点的季节波动以及旅游旺淡季人流量或服务质量不平衡都会影响到游客的情感, 因此不同时间段的旅游体验不一样, 游客对旅游地的情感倾向也会有所变化。随着社会媒体的发展, 越来越多旅游者通过网络游记分享旅游体验, 表达自己对旅游地的意见及情感倾向。网络游记数据提供了游记文本及旅游出发时间信息, 能准确反映出在不同时间段游客对旅游地的意见及情感倾向。而针对网络游记进行基于时间特征的分析, 结合细致的情感分类, 可发现游客各类情感随时间变化的规律, 选取关键性情感指标, 一方面能为旅游地管理者提供新的信息源, 发现积极情感强烈但游客数量不多的时间段, 从而调整宣传策略;而为了让游客在网络上传播旅游地积极的口碑, 旅游地管理者可发现消极情感强烈的时间段, 进而优化该时间段的旅游资源分配。另一方面, 可以为潜在旅游者提供根据不同时间段的游客情感倾向的旅游地检索新渠道, 满足更多元的检索需求, 让潜在旅游者可以根据自身的旅游期望选择最佳的旅游地和旅游时间的组合。
本文利用基于情感词典的情感分析方法, 对游客发表的网络游记进行情感标注, 通过分析不同时间段游记的情感波动情况, 发现游客对旅游地情感倾向随时间变化的规律, 进而为旅游管理者、潜在旅游者信息获取提供新的信息参考渠道。
情感分析又称意见挖掘, 是指通过对用户发表的内容文本进行主客观性观点、情绪、极性的分析和挖掘, 判断出文本的情感倾向分类[1]。情感分析的方法主要分为两大类: 基于情感词典的方法和基于机器学习的方法。
(1) 基于情感词典进行情感分析, 要构建一个能准确判断情感词所属的类别及情感值的情感词典, 情感词典的质量对情感分析的效果影响很大。Hu等[2]通过WordNet得到情感词及其情感极性, 根据句子正负情感分的离差决定该句子的情感倾向。在中文领域中, 朱嫣岚等[3]使用HowNet进行语义相似度和语义相关场的计算, 提出两种词汇情感倾向性计算方法, 判别准确率高。史伟等[4]构建了模糊情感词本体, 进行微博的情感计算, 得到公众对突发事件的情感曲线。
(2) 基于机器学习的情感分析可归结为文本分类问题, 常用的机器学习模型有: 朴素贝叶斯(Naive Bayes), 最大熵(Maximum Entropy), 中心向量分类法, K最近邻分类和支持向量机(SVM)。Pang等[5]分别使用朴素贝叶斯、最大熵、支持向量机三种方法对电影评论进行情感倾向性分类, 发现支持向量机方法的分类效果最佳, 精准度可达80%。在中文领域中, 徐军等[6]以新闻及评论为语料, 采用朴素贝叶斯和最大熵方法进行情感分类, 发现在多数情况下最大熵方法的准确率高于贝叶斯方法。
情感分析在旅游领域的应用主要在旅游服务评论以及景点评论上。在旅游服务评论方面, Banić等[7]利用KNIME对酒店的在线评论进行情感分析, 得到酒店某一特征的情感分值及酒店整体情感倾向, 为潜在客户提供决策参考, 也为酒店管理人员指明改进方向。在旅游目的地景点评论方面, 王素格等[8]利用词对间的依存关系, 设计具有情感倾向的“特征-观点”对抽取算法, 并对山西旅游景点评论进行“特征-观点”对的抽取, 有效挖掘游客的观点信息。郑文英[9]面向旅行目的地在线评论信息, 基于逐点语义分析法提取情感倾向词组, 从三大方面分析游客反映的关于旅游地的问题, 并提出建议。
游客对旅游地的情感不仅因人而异, 也因时而异。金程[10]通过半结构化日记发现游客在不同旅游阶段的情感强度呈动态变化。胡传东[11]利用ROST CM6对骑行游记进行情感分析, 并根据情感倾向的起伏变化规律, 找出骑行体验中高峰体验的路段。于静[12]构建基于微博大数据的游客情感分析模型, 对西安市区内的用户微博进行情感分析, 分析了游客情感的时间变化特征。Li等[13]研究并设计了一个用于旅游网络观点的视觉分析系统VisTravel, 通过对网络游记及评论的情感分析, 能有效展示游客情感随时间的变化。
情感分析在旅游领域仍有较大研究和应用空间。目前研究多数仅基于文本情感二元划分方法, 分为积极和消极情感, 且多以分析旅游服务评论为主。与之相比, 本研究将时间特征引入到游客对旅游目的地情感倾向的研究中, 使用更为细致的文本情感分类, 构建面向网络游记时间特征的情感分析模型, 因此能够更好地反映游客对旅游目的地情感的时间变化规律。
通过相关研究发现, 当前在旅游领域的情感分析主要基于旅游产品或旅游服务的用户评论, 本文认为可以对网络游记进行深入挖掘, 引入时间特征, 发现游客情感随时间的变化特征, 从而能结合时间维度为潜在旅游者提供旅游决策参考, 同时有助于为旅游地提供全年不同时间段的旅游产品策划、营销策略等建议。本文提出的面向网络游记时间特征的情感分析模型是基于网络游记的文本内容, 对网络游记文本进行情感分析, 研究游客对旅游目的地情感的时间特征变化, 该情感分析模型如图1 所示。
面向网络游记时间特征的情感分析处理过程, 可以分为5大模块: 采集网络游记数据、对游记文本进行预处理、情感标注、计算游记的情感特征分值、游记的情感时间特征结果分析。
(1) 采集网络游记文本内容及旅游时间数据。先设定实验数据的时间范围以及旅游目的地, 再利用网络爬虫采集符合以下特征的游记数据: 数据要素齐全(旅游目的地、标题、出游时间、文本内容); 游记显示的出游时间在选定的时间段内。
(2) 游记文本预处理。采集的部分游记会存在描写多个旅游地的情况, 可能导致目标旅游地的情感倾向性不同。因此, 为了提高情感的目标指向性, 降低同游的旅游地对目标旅游地情感的影响, 要对游记数据进行预处理, 剔除包含不同旅游地的游记数据。再进行信息提取, 主要提取游记标题、出游时间、文本内容等作为信息元, 存储到数据库中, 作为实验数据集。
(3) 情感标注。构建适用的情感词典, 将情感词典中的情感词逐一与实验数据集中的游记文本内容匹配, 记录下游记中出现该情感词的位置。由于文章中会存在否定句, 对句子或文章进行情感类别识别时,还需考虑是否存在影响情感类别的否定词。因此, 先识别情感词在情感词典中所属类别以及其对应的情感强度, 再判断抽取的情感词前是否存在否定词, 若存在否定词, 则进行相应的情感迁移, 最后记录下识别到的情感类别及其强度。
(4) 按时间段统计游记的情感特征分值。对游记文本中识别到的所有情感类型及其强度进行汇总, 分别计算该游记文本中各种情感类别的强度之和, 从而计算出该篇游记文本中各种情感类别的平均分值。再选择一个合适的时间单位(季度或月份或星期等), 对全年中各个时间段的所有游记文本中各种情感类别的平均分值进行叠加, 得到各个时间段整体游记的不同情感类别的情感分值, 从而计算出各个时间段内整体游记的不同情感类别的情感平均分值。
(5) 游记的情感时间特征分析。对得到的不同旅游地的情感数据进行分析, 得到不同时间段游记的情感波动情况, 发现游客对旅游地情感倾向随时间变化的规律, 进而为旅游管理者、潜在旅游者信息获取提供新的信息参考渠道。
为验证模型的有效性, 本文从蚂蜂窝网[12]采集相关的游记数据, 通过对典型的不同类型旅游地的分析, 以期发现基于时间特征的各个旅游地的情感规律。
为使研究结果更具有代表性, 本研究选择4个分布在不同区域且各具特色的旅游城市, 分别是东北资源型的哈尔滨、自然景观型的黄山、都市观光型的重庆以及南方海滨型的三亚。选用爬虫工具“火车采集器”[14]抓取了蚂蜂窝[15]上的网络游记数据作为情感分析的实验数据集, 数据采集时间为: 2016年11月。实验数据时间范围设定在2013年1月1日至2015年12月31日, 采集到哈尔滨游记1 347篇、黄山游记1 671篇、重庆游记1 916篇、三亚游记2 349篇。由于采集的游记中存在描写多个旅游地的情况, 为了保证情感分析的准确度, 对数据中包含不同旅游地的游记进行剔除。最终得到哈尔滨游记821篇、黄山游记969篇、重庆游记1 234篇和三亚游记2 183篇。将采集到的网络游记数据中出现的旅游目的地、游记内容及对应的旅游时间进行结构化抽取, 存入数据库中。
(1) 选择情感词典
与基于机器学习的方法相比, 基于词典的倾向性评分方法则简单且高效, 适合工程应用, 但此方法的效果受情感词典的质量影响较大[16]。目前, 在中文领域, 主要选用的情感词典有知网的情感分析用词语集(HowNet)①(①http://www.keenage.com/html/c_index.html.), 台湾大学中文通用情感词典(NTUSD)②(②http://nlg18.csie.ntu.edu.tw: 8080/opinion/index.html.)以及中文情感词汇本体库③(③http://ir.dlut.edu.cn/EmotionOntologyDownload.)。
本文选用2012年大连理工大学信息检索研究室发布的中文情感词汇本体库作为情感词典。该词典将情感共分为乐、好、怒、哀、惧、恶、惊7大类, 包含27 352个中文情感词汇。
(2) 情感标注过程
将中文情感词汇本体库中的情感词逐一与实验数据集中的游记文本内容进行匹配, 得到该情感词在该游记中出现的位置。对于游记中情感词被否定词修饰的情况, 采用杜振雷[17]提出的否定词修饰后情感迁移的方法。若情感词前的5个字符中存在否定词, 则进行相应的情感迁移, 最后记录下识别到的情感类别及其强度, 再进行下一个情感词的匹配。
例如, “说实话, 饺子和面条都不怎么好吃, 要不是醋和辣椒, 我都吃不下去”中出现情感词“好吃”, 根据中文情感词汇本体库查到属于情感大类中的[好], 表示对食物的赞扬, 情感强度为3。由于在“好吃”前出现了否定词“不”, 因此进行情感迁移, 情感迁移为[恶], 情感强度被减弱, 降为0.6。
本文面向网络游记文本对每类情感都提取两个情感特征指标, 分别是单个月份中网络游记的情感均值和各种情感在月份上的情感标准差。单个月份中网络游记的情感均值反映了以该月份所有的网络游记为整体的情感倾向, 各种情感在月份上的情感标准差表现了情感随月份的波动程度。
由于每篇网络游记都包含情感词, 因此均为主观文本, 可进行情感特征的量化。将网络游记文本表示为篇章集D={D1, D2, …, Dn}, 按月份分别对7类情感进行情感特征分值计算。由于每类情感的计算方法相同, 下面以“乐”(Joy)为例介绍情感特征分值的计算方法。
(1) 情感均值能去除网络游记篇数的影响, 较准确地反映单个月份中网络游记整体的情感特征。对月份Moni中所有网络游记[乐]的情感均值进行平均, 得到月份Moni [乐]的情感均值, 表示为MonAvgJoyi, 如公式(1)所示。
MonAvgJoyi=
其中, AvgJoyk为月份Moni中的网络游记Dk [乐]的情感分均值, 即网络游记Dk中情感类别为[乐]的情感词的情感强度之和与该游记中7类情感词次数之和的商。n为月份Moni中网络游记的篇数。
(2) 各类情感在各月份的情感均值标准差能反映游客情感在各月份的波动程度。使用标准差公式[18]计算各个月份[乐]的情感标准差, 能较准确地反映[乐]的情感在各月份的波动程度, 记为StdJoy, 如公式(2)所示。
StdJoy=
其中, MonScoJoyi{Invalid MML}{Invalid MML} 为月份 Moni{Invalid MML}{Invalid MML} [乐]的情感分值。
根据第4节的处理方法对实验数据集中的网络游记内容文本进行情感分析, 得到哈尔滨、黄山、重庆、三亚这4个不同类型旅游地的情感特征数据。在这些数据的基础上, 对各旅游地网络游记数量的时间分布情况以及各旅游地网络游记情感时间变化情况进行分析, 从中可以发现游客情感的时间特征规律, 进而为旅游管理者、潜在旅游者信息获取提供新的信息参考渠道。
从网络游记文本内容中提取出明确的出游时间, 得到各月份游记的数量, 在一定程度上能反映出当地的游客数量情况。哈尔滨、黄山、重庆、三亚旅游人数的时间变化情况, 如图2所示。
从整体看各旅游地游客的月度变化, 发现9月、10月出游人数相对较多, 11月、12月较少, 与我国法定假期放假情况相对应。不同旅游地最高点的月份不完全相同, 随时间变化趋势不一样, 说明游客会根据不同月份计划出游的旅游地。整体分布上, 各旅游地的网络游记分布情况区别很大。其中, 游记数量最多的是9月份的三亚, 多达274篇, 可见9月的三亚极其受游客欢迎。游记数量最少的是4月份的哈尔滨, 只有21篇, 而12月份的哈尔滨, 高达191篇, 可见哈尔滨游客数量随时间波动很大, 冬季之外的哈尔滨对游客吸引力不足。黄山和重庆的游记数量分布相似, 均呈“M”字型, 春秋两季为旅游旺季, 与当地气候关系密切。相比之下, 三亚的游记数量分布都比较高, 只有11月、12月相对偏低, 说明旅游开发较成熟。
以月为时间单位对游客情感的时间特征规律进行探索。
(1) 各类情感的情感均值范围
对各旅游目的地游客的网络游记情感变化情况绘制情感变化折线图, 如图3所示。
从图3整体可以看到东北资源型的哈尔滨、自然景观型的黄山、都市观光型的重庆以及南方海滨型的三亚这4个不同类型的旅游地情感月度变化情况。[好]的情感均值在各旅游地中都分布较高, 其次是[乐]和[恶], 都在1上下浮动, 其他4种情感在0.5以下。[好]的情感包括尊敬、赞扬、喜爱、祝愿等, 说明游客对旅游地的总体感受倾向于喜爱与赞扬, 达到了其对旅游度假的期望, 同时反映了游客写网络游记时对旅游地的回忆多为美好的, 对积极情感的描写较多, 旅游地能通过游客在网络上传递比较好的口碑。
因此, 网络游记情感的时间变化特征一可归纳为: 在7类情感中, [好]的情感均值在各旅游地的各月份中总是最高, 远高于其他情感, 且较为稳定。
(2) 情感随时间的波动程度
对各城市网络游记情感均值标准差进行计算, 结果如图4所示。
各旅游地的情感标准差分布情况类似, 情感[好]、[乐]和[恶]的标准差在各旅游地中都较为明显, 而[怒]、[哀]、[惧]、[惊]的标准差相对较小。这说明在分析游客对旅游地情感的时间变化规律时, 7类情感的表达能力相差较大。
由此总结得到网络游记情感的时间变化特征二为: 在7类情感中, 情感[好]、[乐]和[恶]在不同月份的波动程度较大, 相比之下[怒]、[哀]、[惧]、[惊]的波动很小。
(3) 情感随时间的波动情况与游记数量变化之间的关系
考虑[好]、[乐]、[恶]这三种明显波动的情感能在一定程度上反映不同月份游客的情感变化情况, 因此针对各个旅游地的这三种情感在时间上的变化进行分析。以哈尔滨为例, 对[好]、[乐]和[恶]的情感均值及游记数进行分析, 如图5所示。
游客对旅游地情感波动与游记数量分布存在较大差异。12月份是哈尔滨最受游客欢迎的月份, 人流量最多, 却不是游客积极情感最强烈的月份。存在游客积极情感强烈, 但游客人数不多的月份, 表现出这个月份旅游地的发展潜力。
由此总结得到网络游记情感的时间变化特征三为: 网络游记情感随时间的波动与相应的游记数量并不相关, 即传统的旅游地旺季和淡季的划分与游客的实际情感体验并不相关。
从上文分析可知, 情感[好]、[乐]和[恶]在不同月份的波动程度较明显。因此, 选取东北资源型的代表旅游地哈尔滨和南方海滨型的代表旅游地三亚, 从[好]、[乐]和[恶]情感进行时间变化因素分析。情感[好]表达了游客对旅游地的尊敬、赞扬、相信、喜爱和祝愿, 而[乐]表达了游客快乐、安心的情感, [恶]则表现了游客对旅游地的烦闷、憎恶、贬责、嫉妒和怀疑。由于情感[好]的均值远大于[乐]和[恶], 为更清晰地显示三种情感的变化趋势, 将其分为两组绘制折线图, 如图6和图7所示。
东北资源型的哈尔滨情感波动情况比南方海滨型的三亚更显著, 说明不同类型旅游地的游客情感随时间变化, 特征存在差异。东北资源型旅游地的游客在1月、7月、11月、12月的积极情感[好]和[乐]较高, 即夏冬季节, 说明东北资源型旅游地具有夏季可避暑, 冬天能玩冰雪的特点, 能满足游客的预期。但同时冬季[恶]的情感很高, 旅游地可以从冬季月份的游记中挖掘游客产生[恶]情感的原因, 提高旅游服务。而4月、5月份情感[好]和[乐]都低于平均值, 2月、3月[好]和[乐]情感一般, 而[恶]情感上升, 说明东北资源型旅游地缺乏对春季旅游产品开发, 让游客失望而归。
与之相比, 南方海滨型的三亚[好]的情感均值全年的平均值为2.47, 高于哈尔滨, 且情感波动没有哈尔滨大, 说明游客在三亚的体验普遍比哈尔滨好, 旅游发展更稳定成熟。由图7可见, 三亚5月-6月[好]和[乐]情感都下降, [恶]情感明显上升。对于南方海滨型的旅游地, 5月-6月天气炎热, 而且常常伴随着台风下雨, 对游客旅游体验的有很大影响。12月[好]和[乐]情感都很高, 对于喜欢嬉戏游玩的游客, 推荐选择[乐]情感高的10月-12月期间出游, 而偏好休闲观光的游客, 选择[好]情感高的4月、7月、8月、12月期间旅游。
网络游记正在成为一种旅游方面重要的信息来源, 一方面为潜在旅游者提供参考, 另一方面为商家提供商机。本文从时间层面对旅游资源进行分析, 提出面向网络游记时间特征的情感分析模型, 该模型主要包括网络游记文本内容及旅游时间数据的采集、游记文本预处理、情感标注、按时间段统计游记情感特征分值、游记情感时间特征的结果分析5大模块。该模型从时间维度上分析游客对旅游地情感变化规律, 基本规律如下:
(1) 在7类情感中, [好]的情感均值在各旅游地的各月份中总是最高, 远高于其他情感, 较为稳定。
(2) 在7类情感中, 情感[好]、[乐]和[恶]在不同月份的波动程度较大, [怒]、[哀]、[惧]、[惊]的波动很小。
(3) 情感随时间的波动与相应游记数量并不相关, 即传统的旅游地旺季和淡季的划分与游客的实际情感体验并不相关。
通过对4个不同类型旅游地的游记进行分析, 发现符合以上规律。对于旅游地[好]和[乐]情感强度都高于平均值的月份, 游客对旅程体验的满意度比较高, 旅游资源具有很大的开发空间。对于[恶]较高的月份, 不推荐给旅游者, 建议旅游地管理者对该时段游客游记进行内容分析, 了解游客厌恶的原因, 并采取相关改善措施。对于游客积极情感强烈, 但游客人数不多的月份, 建议潜在游客可选择在该月份前往旅游。因此应用该模型能通过分析不同时间段游记的情感波动情况, 发现游客对旅游地情感倾向随时间变化的规律, 进而为旅游管理者、潜在旅游者信息获取提供新的信息参考渠道。
本文不足之处在于通过游记的方式能获得丰富的信息, 但其中可能会存在部分情感表达不充分的情况, 如对旅游地很不满的游客很少会发表游记。在后续的研究中将考虑加入其他类型的信息来源进行分析, 进一步完善旅游地情感时间特征的规律, 使研究结论更具有参考价值。
程翠琼, 徐健: 提出研究思路, 设计研究方案;
程翠琼: 进行实验, 采集、清洗和分析数据;
程翠琼, 徐健: 论文起草及最终版本修订。
所有作者声明不存在利益冲突关系。
支撑数据见期刊网络版http://www.infotech.ac.cn。
[1] 程翠琼. 旅游地网络游记情感分值.xlsx. 4个旅游地网络游记的情感分值数据.
[2] 程翠琼. 旅游地情感分均值结果.xlsx. 4个旅游地情感分均值结果数据.
[1] |
文本情感分析综述 [J].https://doi.org/10.3724/SP.J.1087.2013.01574 URL [本文引用: 1] 摘要
以文本颗粒度为视角,从情感词抽取、语料库和情感词典构建、评价对象与意见持有者分析、篇章级情感分析、实际应用五个方面对文本情感分析文献进行了梳理,并做出必要评述。指出当前情感分析系统的准确率普遍不高,进一步研究的重点在于:自然语言处理的研究成果在文本情感倾向分析中更广泛和贴切的应用;选取文本情感倾向分类的特征和方法;利用现有语言工具和相关资源,规范、快速地构造语言工具和相关资源并应用。
Survey of Text Sentiment Analysis [J].https://doi.org/10.3724/SP.J.1087.2013.01574 URL [本文引用: 1] 摘要
以文本颗粒度为视角,从情感词抽取、语料库和情感词典构建、评价对象与意见持有者分析、篇章级情感分析、实际应用五个方面对文本情感分析文献进行了梳理,并做出必要评述。指出当前情感分析系统的准确率普遍不高,进一步研究的重点在于:自然语言处理的研究成果在文本情感倾向分析中更广泛和贴切的应用;选取文本情感倾向分类的特征和方法;利用现有语言工具和相关资源,规范、快速地构造语言工具和相关资源并应用。
|
[2] |
Mining and Summarizing Customer Reviews [C]// |
[3] |
基于HowNet的词汇语义倾向计算 [J].https://doi.org/10.3969/j.issn.1003-0077.2006.01.003 URL [本文引用: 1] 摘要
在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术。在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过滤等自然语言处理的研究提供了新的思路和手段。篇章语义倾向研究的基础工作是对词汇的褒贬倾向判别。本文基于HowNet,提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,本文的方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。
Semantic Orientation Computing Based on HowNet [J].https://doi.org/10.3969/j.issn.1003-0077.2006.01.003 URL [本文引用: 1] 摘要
在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术。在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过滤等自然语言处理的研究提供了新的思路和手段。篇章语义倾向研究的基础工作是对词汇的褒贬倾向判别。本文基于HowNet,提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,本文的方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。
|
[4] |
基于微博平台的公众情感分析 [J].https://doi.org/10.3772/j.issn.1000-0135.2012.11.007 URL [本文引用: 1] 摘要
微博是一种在线交流形式,以其简短、方便和及时性在中国成为2011年的一个热点.本文以新浪微博为平台,通过抽取2011年7月23日"动车事故"发生后公众发表的微博并进行情感分析.提取了六维情感类(期待,高兴,喜爱,惊讶,焦虑,悲伤,生气和憎恨),构建了用于情感分析的模糊情感本体,建立了微博文本的影响力和情感计算方法,对"动车事故"后的公众情感随事态发展的变化进行了探讨.
Study on Public Sentiment Based on Microblogging Platform [J].https://doi.org/10.3772/j.issn.1000-0135.2012.11.007 URL [本文引用: 1] 摘要
微博是一种在线交流形式,以其简短、方便和及时性在中国成为2011年的一个热点.本文以新浪微博为平台,通过抽取2011年7月23日"动车事故"发生后公众发表的微博并进行情感分析.提取了六维情感类(期待,高兴,喜爱,惊讶,焦虑,悲伤,生气和憎恨),构建了用于情感分析的模糊情感本体,建立了微博文本的影响力和情感计算方法,对"动车事故"后的公众情感随事态发展的变化进行了探讨.
|
[5] |
Thumbs up?: Sentiment Classification Using Machine Learning Techniques [C]// |
[6] |
使用机器学习方法进行新闻的情感自动分类 [J].https://doi.org/10.3969/j.issn.1003-0077.2007.06.013 URL [本文引用: 1] 摘要
本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面.我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究.实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%.同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率.总之,基于情感的文本分类是一个更具挑战性的工作.
Sentiment Classification for Chinese News Using Machine Learning Methods [J].https://doi.org/10.3969/j.issn.1003-0077.2007.06.013 URL [本文引用: 1] 摘要
本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面.我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究.实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%.同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率.总之,基于情感的文本分类是一个更具挑战性的工作.
|
[7] |
Using Big Data and Sentiment Analysis in Product Evaluation [C]// |
[8] |
基于依存关系的旅游景点评论的特征-观点对抽取 [J].https://doi.org/10.3969/j.issn.1003-0077.2012.03.020 URL [本文引用: 1] 摘要
特征—观点对的抽取是观点挖掘 中非常重要的研究课题之一。该文首先利用依存语法对句子进行了依存分析,在此基础上研究了旅游评论文本中特征-观点对的抽取。利用词对间的依存关系,构建 了获取含有特征和观点词语的组块规则,并设计了候选特征的识别算法和特征—观点对的抽取算法。该文对山西旅游景点评论语料进行了实验,结果表明,特征—观 点对的抽取整体的F1值达到了87.10%,验证了方法的有效性。
Feature-Opinion Extraction in Scenic Spots Reviews Based on Dependency Relation [J].https://doi.org/10.3969/j.issn.1003-0077.2012.03.020 URL [本文引用: 1] 摘要
特征—观点对的抽取是观点挖掘 中非常重要的研究课题之一。该文首先利用依存语法对句子进行了依存分析,在此基础上研究了旅游评论文本中特征-观点对的抽取。利用词对间的依存关系,构建 了获取含有特征和观点词语的组块规则,并设计了候选特征的识别算法和特征—观点对的抽取算法。该文对山西旅游景点评论语料进行了实验,结果表明,特征—观 点对的抽取整体的F1值达到了87.10%,验证了方法的有效性。
|
[9] |
旅行目的地中文评论的情感分析研究 [D].Sentiment Analysis of Travel Destination Reviews in Chinese [D]. |
[10] |
游客情感的动态性及其变化机制研究 [D].Research on the Dynamics and Change Mechanism of Tourist Emotions [D]. |
[11] |
基于网络游记内容分析的风景道骑行体验研究——以318国道川藏线为例 [J].https://doi.org/10.3969/j.issn.1002-5006.2015.11.014 URL [本文引用: 1] 摘要
骑自行车旅行是当下游客体验风景道的重要方式。318国道川藏线在国家级风景道中居重要地位。网络骑行游记较为真实地反映了游客的骑行体验过程。文章以网络骑行游记为素材,采用内容分析法,从骑行动机、感知维度、高峰体验及拍照指数4个方面,研究骑行游客对川藏线风景道的旅游体验规律及其特点。研究表明,游客骑行高原风景道的主要动机在于获得认同;骑行川藏线的体验可划分为自然、挑战、畅爽、美丽、传奇和升华6个维度,以及景观感知、自我体验和自我超越3个层面;骑行高峰体验是骑行的客观条件、骑行者的主观认知与身体状况综合作用的结果;骑行的高峰体验路段与高度凝视路段基本一致;骑行初期的拍照指数随海拔升高而增加;标志性景点与休整地也是拍照指数相对较高的区域。基于网络骑行游记的风景道体验研究,对自行车旅游的理论与实践有一定的借鉴意义。
Cycling Tourists’ Experience of Scenic Byways Based on Content Analysis of Travel Blogs: A Case Study of the Sichuan-Tibet Section of National Highway 318 [J].https://doi.org/10.3969/j.issn.1002-5006.2015.11.014 URL [本文引用: 1] 摘要
骑自行车旅行是当下游客体验风景道的重要方式。318国道川藏线在国家级风景道中居重要地位。网络骑行游记较为真实地反映了游客的骑行体验过程。文章以网络骑行游记为素材,采用内容分析法,从骑行动机、感知维度、高峰体验及拍照指数4个方面,研究骑行游客对川藏线风景道的旅游体验规律及其特点。研究表明,游客骑行高原风景道的主要动机在于获得认同;骑行川藏线的体验可划分为自然、挑战、畅爽、美丽、传奇和升华6个维度,以及景观感知、自我体验和自我超越3个层面;骑行高峰体验是骑行的客观条件、骑行者的主观认知与身体状况综合作用的结果;骑行的高峰体验路段与高度凝视路段基本一致;骑行初期的拍照指数随海拔升高而增加;标志性景点与休整地也是拍照指数相对较高的区域。基于网络骑行游记的风景道体验研究,对自行车旅游的理论与实践有一定的借鉴意义。
|
[12] |
基于微博大数据的游客情感及时空变化研究 [D].Research on Tourist Emotion and Spatio-temporal Variation Based on Microblog Big Data [D]. |
[13] |
VisTravel: Visualizing Tourism Network Opinion from the User Generated Content [J].https://doi.org/10.1007/s12650-015-0330-x URL [本文引用: 1] 摘要
With the development of Internet, an increasing number of people choose to travel during the holidays and post travel information on the tourism products and services through the smart devices anytime and anywhere. Because tourism network opinions have a significant impact on tourism activities and the whole tourist trade, they have attracted the attention of tourism management department. Through analyzing the tourism User-Generated Content data obtained from Mafengwo, which is one of the influential tourism social networking sites, this paper studies and designs a visual analytic system—for tourism network opinion—VisTravel. The VisTravel system includes three main views: the interactive filtering view can select travel notes and comments, the content view is used to express comments and tourists’ emotion changes, and the pop-up information view shows social relationships of tourist and tag cloud of comments. In this paper, tourists’ hierarchical structure is put forward to explore the tourist’s social networking relationships, and the stacked group is used to analyze tourists’ sentiment changes. Experimental results show that the proposed VisTravel system can effectively analyze tourists’ regional tendency and emotional changes. It can also help the tourism management department more thoroughly understand the tourism network opinion in time. Graphical abstract A screenshot of VisTravel. The system includes eight views. (a Temporal histogram, filtering subset of travel notes. b Map notes view, filtering subset of travel comments. c Travel notes view, selecting one of subset of travel notes. d Sentiment analyzer view, indicating the changes of tourists’ sentiment. e Comment list view, displaying the raw comment data. f Hierarchical structure view, showing tourists’ geographical relationships in comments. g Tag cloud, showing key words of the comments.)
|
[14] |
火车采集器 [CP/OL]. [LocoySpider [CP/OL]. [ |
[15] |
蚂蜂窝 [DB/OL]. [mafengwo.com [DB/OL]. [ |
[16] |
面向中文博客的信息采集与倾向性检索 [D].Research on Chinese Blog Information Gathering and Opinion Retrieval [D]. |
[17] |
面向微博短文本的情感分析研究 [D].Sentiment Analysis Towards Microblog Short Text [D]. |
[18] |
|
/
〈 |
|
〉 |