Data Analysis and Knowledge Discovery  2017, Vol. 1 Issue (7): 61-72    DOI: 10.11925/infotech.2096-3467.2017.0516
Fine-grained Sentiment Analysis Based on Weibo
Dun Xinhui1, Zhang Yunqiu1(), Yang Kaixi2
1School of Public Health, Jilin University, Changchun 130021, China
2International School of Information Science & Engineering, Dalian University of Technology, Dalian 116620, China
[Objective] This paper conducts a fine-grained sentiment analysis of Weibo posts by dividing the sentiments into eight categories and calculating their intensity values. [Methods] First, we analyzed the Weibo corpus to construct the question word list. Besides the seven sentiments defined by DUTIR, we added “suspected” to the list. Then, we used the Pointwise Mutual Information method, the impacts of negative words and the degree adverbs to construct the expression symbol dictionary. We employed Python to retrieve the needed data from Weibo, and applied the jiebaR package to segment the words. Finally, we classified the sentiments and calculated their intensity. [Results] We got the proportion of eight sentiment categories and sentiment intensity of commonly used drugs for diabetes. The Precision values of “angry” and “sad” were the highest (85.73% and 83.05%), while the Recall and F values of “happy” and “like” were the highest (more than 81%). The Precision, Recall and F values of “suspected” were 77.33%, 78.58% and 77.95% respectively. [Limitations] The sentiment dictionary needs to be expanded. [Conclusions] The proposed model could analyze the sentiment of Weibo Posts more effectively than traditional methods.

Key wordsMicroblog      Fine-grained Sentiment Analysis      Drug     
Received: 31 May 2017      Published: 26 July 2017
Cite this article:

Dun Xinhui,Zhang Yunqiu,Yang Kaixi. Fine-grained Sentiment Analysis Based on Weibo. Data Analysis and Knowledge Discovery, 2017, 1(7): 61-72.

词语 词性种类 词义数 词义序号 情感分类 强度 极性 辅助情感分类 强度 极性
无所畏惧 idiom 1 1 PH 7 1
手头紧 idiom 1 1 NE 7 0
周到 adj 1 1 PH 5 1
言过其实 idiom 1 1 NN 5 -1
编号 情感大类 情感类 例词
1 快乐(PA) 喜悦、欢喜、笑眯眯、欢天喜地
2 安心(PE) 踏实、宽心、定心丸、问心无愧
3 尊敬(PD) 恭敬、敬爱、毕恭毕敬、肃然起敬
4 赞扬(PH) 英俊、优秀、通情达理、实事求是
5 相信(PG) 信任、信赖、可靠、毋庸置疑
6 喜爱(PB) 倾慕、宝贝、一见钟情、爱不释手
7 祝愿(PK) 渴望、保佑、福寿绵长、万寿无疆
8 愤怒(NA) 气愤、恼火、大发雷霆、七窍生烟
9 悲伤(NB) 忧伤、悲苦、心如刀割、悲痛欲绝
10 失望(NJ) 憾事、绝望、灰心丧气、心灰意冷
11 疚(NH) 内疚、忏悔、过意不去、问心有愧
12 思(PF) 思念、相思、牵肠挂肚、朝思暮想
13 慌(NI) 慌张、心慌、不知所措、手忙脚乱
14 恐惧(NC) 胆怯、害怕、担惊受怕、胆颤心惊
15 羞(NG) 害羞、害臊、面红耳赤、无地自容
16 烦闷(NE) 憋闷、烦躁、心烦意乱、自寻烦恼
17 憎恶(ND) 反感、可耻、恨之入骨、深恶痛绝
18 贬责(NN) 呆板、虚荣、杂乱无章、心狠手辣
19 妒忌(NK) 眼红、吃醋、醋坛子、嫉贤妒能
20 怀疑(NL) 多心、生疑、将信将疑、疑神疑鬼
21 惊奇(PC) 奇怪、奇迹、大吃一惊、瞠目结舌
序号 疑问词 强度值 极性值
1 哪儿、哪里、怎么样、怎么着、如何、为什么、难道、'呢?'、'吧?'、'啊?'、啥、为何、怎么办、哪些、问题、请问、为神马、神马情况、为啥、干嘛、能否、何时、求问 7 1
2 谁、何、什么、神马、几时、怎么、怎的、怎样、岂、何尝、吗、么、多大、有没有、会不会、好不好、能不能、可不可以、行不行 5 1
3 几、多少、怎、难怪、反倒、何必、你知道 3 1
4 居然、竟然、究竟 1 1
序号 程度副词 强度值
1 极、极为、极其、透顶、极端、顶、最、最为、绝顶、无比 2
2 多、很、非常、甚至、十分、太、分外、特别、万分、尤其、真、格外、何等、过于、多么、更加、更为、更、越加、越发、愈加、愈、相当、好 1.5
3 颇、挺、比较、较、较为、较比 1.2
4 怪、有点、有点儿、有些、稍、稍稍、稍微、稍许、少许、略、略微 0.5
表情符号 情感分类 表情符号 情感分类
[doge] 8 [抱抱] 2
[喵喵] 1 [坏笑] 1
[二哈] 1 [舔屏] 2
[打脸] 4 [污] 1
[哆啦A梦笑] 1 [允悲] 4
[哆啦A梦汗] 7 [笑而不语] 1
[话筒] 2 [费解] 8
[哆啦A梦开心] 1 [憧憬] 2
[笑cry] 1 [并不简单] 2
[摊手] 8 [微笑] 1
情感分类 表情符号 数量
[微笑][哈哈][偷笑][太开心] 32
[爱你][亲亲][鼓掌][心] 31
[怒][抓狂][怒骂] 9
[允悲][委屈][失望][悲伤] 14
[害羞][哆啦A梦害怕][羞嗒嗒] 8
[坏笑][挖鼻][闭嘴][鄙视] 8
[吃惊][惊恐] 5
[费解][疑问] 6
总计 113
序号 类型 示例
1 仅含情感词 热情
2 否定词+情感词 不 热情
3 程度副词+情感词 太 热情
4 否定词+程度副词+情感词 不 太 热情
5 程度副词+否定词+情感词 太 不 热情
6 否定词+否定词+情感词 没有 不 热情
种类 名称 数量 总计
双胍类口服降糖药 二甲双胍 248 353
格华止、美迪康 105
磺脲类口服降糖药 格列吡嗪 119 166
瑞易宁 47
非磺脲类口服降糖药 瑞格列奈 162 203
诺和龙 41
α葡萄糖苷酶抑制剂 阿卡波糖 172 260
拜糖平 88
胰岛素增敏剂 罗格列酮 61 205
文迪雅 144
DPP-4抑制剂 西格列汀 186 305
捷诺维 119
复方制剂 消渴丸 212 212
总计 1 704
序号 特征词 词频 序号 特征词 词频
1 糖尿病 145 10 服药 29
2 患者 121 11 第一口 28
3 服用 89 12 餐前 26
4 治疗 84 13 餐后 25
5 降糖药 76 14 用药 25
6 胰岛素 59 15 长生不老 21
7 口服 55 16 副作用 20
8 低血糖 50 17 首例 20
9 餐后血糖 35
情感类别 Precision Recall F
79.00% 83.15% 81.02%
77.18% 85.56% 81.15%
85.73% 38.83% 53.45%
83.05% 35.65% 49.89%
53.42% 47.12% 50.07%
64.67% 66.96% 65.80%
54.58% 33.37% 41.42%
77.33% 78.58% 77.95%
