Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (1): 38-44    DOI: 10.11925/infotech.1003-3513.2015.01.06
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
一种主动学习和协同训练相结合的半监督微博情感分类方法
毕秋敏1, 李明2, 曾志勇3
1. 昆明理工大学艺术与传媒学院 昆明 650093;
2. 云南财经大学信息学院 昆明 650221;
3. 云南财经大学信息管理中心 昆明 650221
Semi-supervised Micro-blog Sentiment Classification Method Combining Active Learning and Co-training
Bi Qiumin1, Li Ming2, Zeng Zhiyong3
1. Faculty of Art and Communication, Kunming University of Science and Technology, Kunming 650093, China;
2. School of Information, Yunnan University of Finance and Economics, Kunming 650221, China;
3. Center of Information Management, Yunnan University of Finance and Economics, Kunming 650221, China
全文: PDF(527 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 针对微博情感分类时未标注样本多和已标注集少的问题, 提出一种新的方法。[方法] 在协同训练算法的基础上引入主动学习思想, 从低置信度样本中选取最有价值的、信息含量大的, 提交标注, 标注完后添加到训练集中, 重新训练分类器进行情感分类。[结果] 使用不同的数据集进行实验, 实验结果表明该方法所构建的分类器性能优于其他方法, 分类准确率明显提高。特别是在已标注样本占40%的情况下, 提升5%左右。[局限] 在协同训练过程中使用随机特征子空间生成方法不能保证每次构建的两个分类器都是强分类器, 因此未能充分地满足协同训练的假设条件。[结论] 引入主动学习思想后, 能够解决协同训练对低置信度样本处理的不足, 进而增强分类器性能, 提高分类准确率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
曾志勇
李明
毕秋敏
关键词 协同训练主动学习情感分类    
Abstract

[Objective] Aimed at less labeled data and more unlabeled samples in micro-blog sentiment classification, a novel method is proposed. [Methods] Active learning is introduced into co-training, the method selects the most valuable ones from low confidence samples, then labels and adds them into training dataset, trains classifiers again. [Results] Experimental results show that classifiers have better performance in this way, and the accuracy is improved obviously. Especially when labeled data reaches 40%, the accuracy increases by about 5%. [Limitations] In the collaborative process, random feature subspace generation can not build two strong classifiers, so hypothesis are not fulfilled. [Conclusions] This method solves the defects of co-training after introducing active learning; the performance and accuracy of classifiers are enhanced.

Key wordsCo-training    Active learning    Sentiment classification
收稿日期: 2014-06-20     
:  TP391  
基金资助:

本文系云南省哲学社会科学规划基金项目"微博用户影响力模型研究"(项目编号:QN2014071)的研究成果之一。

通讯作者: 李明,ORCID:0000-0002-6655-6365,E-mail:operalm@163.com。     E-mail: operalm@163.com
作者简介: 作者贡献声明: 毕秋敏, 曾志勇: 提出研究思路, 设计研究方案; 毕秋敏, 李明: 进行实验; 李明: 采集、清洗和分析数据; 毕秋敏, 李明: 起草论文; 毕秋敏: 论文最终版本修订。
引用本文:   
毕秋敏, 李明, 曾志勇. 一种主动学习和协同训练相结合的半监督微博情感分类方法[J]. 现代图书情报技术, 2015, 31(1): 38-44.
Bi Qiumin, Li Ming, Zeng Zhiyong. Semi-supervised Micro-blog Sentiment Classification Method Combining Active Learning and Co-training. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2015.01.06.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.01.06
null
[1] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[2] 高广尚. 关于实体解析基本方法的研究和述评*[J]. 数据分析与知识发现, 2019, 3(5): 27-40.
[3] 张庆庆,贺兴时,王慧敏,蒙胜军. 基于深度信念网络的文本情感分类研究*[J]. 数据分析与知识发现, 2019, 3(4): 71-79.
[4] 李慧,柴亚青. 基于卷积神经网络的细粒度情感分析方法*[J]. 数据分析与知识发现, 2019, 3(1): 95-103.
[5] 王树义,廖桦涛,吴查科. 基于情感分类的竞争企业新闻文本主题挖掘*[J]. 数据分析与知识发现, 2018, 2(3): 70-78.
[6] 张庆庆,刘西林. 基于BPSO随机子空间的文本情感分类研究[J]. 数据分析与知识发现, 2017, 1(5): 71-81.
[7] 王晓耘,袁媛,史玲玲. 基于微博的电影首映周票房预测建模*[J]. 现代图书情报技术, 2016, 32(4): 31-39.
[8] 贺惠新,刘丽娟. 主动学习的科技文献研究对象标引体系研究*[J]. 现代图书情报技术, 2016, 32(3): 67-73.
[9] 郭顺利,张向先. 面向中文图书评论的情感词典构建方法研究[J]. 现代图书情报技术, 2016, 32(2): 67-74.
[10] 邵健, 章成志, 李蕾. Hashtag研究综述[J]. 现代图书情报技术, 2015, 31(10): 40-49.
[11] 许鑫, 俞飞, 张莉. 一种文本倾向性分析方法及其应用[J]. 现代图书情报技术, 2011, 27(10): 54-62.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn