Advanced Search

数据分析与知识发现  2018 , 2 (6): 1-12 https://doi.org/10.11925/infotech.2096-3467.2017.1174

研究论文

网络股评“发布者-关注者”BSI与股票市场关联性研究*

张宁, 尹乐民, 何立峰

青岛大学商学院 青岛 266071

Impacts of “Poster-Follower” Sentiment on Stock Market Performance

Zhang Ning, Yin Lemin, He Lifeng

School of Business, Qingdao University, Qingdao 266071, China

中图分类号:  G35

通讯作者:  通讯作者: 尹乐民, ORCID: 0000-0003-4814-8437, E-mail: yinlemin@126.com

收稿日期: 2017-11-22

修回日期:  2018-02-8

网络出版日期:  2018-06-25

版权声明:  2018 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

基金资助:  *本文系国家自然科学基金项目“金融市场传闻与澄清公告的信息加工机制研究”(项目编号: 71403138)、山东省高等学校人文社会科学研究项目“多元视角下的网络口碑用户参与机制研究”(项目编号: J16YF15)和青岛市社会科学规划项目“消费者、商家、平台三方视角下的网络口碑用户参与机制研究”(项目编号: QDSKL1601077)的研究成果之一

展开

摘要

目的】研究网络股评“发布者-关注者”BSI投资者情绪指标与股票市场的关联性。【方法】通过情感词典匹配方法对上证指数股评进行情感分类, 构造4种“发布者-关注者”情感倾向值SV, 并依此构建“发布者-关注者”BSI投资者情绪指标, 建立线性与非线性模型进行实证检验。【结果】文本挖掘构建的BSI指标与上证综指的价格和收益率显著相关, 并且BSI对市场收益率的预测能力强于对收盘价格的预测。【局限】仅考虑涨跌两种情绪极性, 未对情感强度进行深入分析。【结论】构造的BSI指标能够有效预测整体股票市场走势, 并且丰富了投资者情绪的测量体系。

关键词: 股票评论 ; 股评关注度 ; 文本挖掘 ; 投资者情绪

Abstract

[Objective] The paper investigates the relationship between the “Bullish Sentiment Index” (BSI) of online reviews/following comments and the performance of stock market. [Methods] First, we conducted sentiment classification for comments on Shanghai Stock Exchange Composite Index using semantic analysis method. Then, we built the sentiment tendencies of these reviews and constructed their “Poster-Follower” BSI. Finally, we used linear and nonlinear models to examine the proposed method empirically. [Results] The BSI based on our proposed method (text mining) could effectively predict the stock market trend, especially on its returns. [Limitations] We only consider two emotional polarities and more research is needed to enhance the sentimental strength. [Conclusions] The Bullish Sentiment Index could effectively predict the overall stock market trend by measuring investors’ sentiment.

Keywords: Stock Comment ; Stock Comment Attention Rate ; Text Mining ; Investor Sentiment

0

PDF (680KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

张宁, 尹乐民, 何立峰. 网络股评“发布者-关注者”BSI与股票市场关联性研究*[J]. 数据分析与知识发现, 2018, 2(6): 1-12 https://doi.org/10.11925/infotech.2096-3467.2017.1174

Zhang Ning, Yin Lemin, He Lifeng. Impacts of “Poster-Follower” Sentiment on Stock Market Performance[J]. Data Analysis and Knowledge Discovery, 2018, 2(6): 1-12 https://doi.org/10.11925/infotech.2096-3467.2017.1174

1 引 言

投资者情绪对股票市场的重要影响, 已在学术界和实践领域得到反复验证[1,2,3,4]。而投资者情绪的度量问题已成为金融领域研究的热点[1,5-6], 经典的度量方法分为直接指标和间接指标, 已在相关领域得到广泛应用。虽然传统投资者情绪指标数据易于获取, 但有学者指出, 它们并不是投资者情绪的直接反映, 而是由宏观经济、政策、新闻事件等与投资者情绪综合而成, 并且还存在统计的延迟和偏差, 直接应用于股票市场预测存在一定的局限[3,7-8]

随着互联网在金融领域的普及, 大量投资者通过网络平台发布股票评论, 表达其对股票市场的观点和情绪, 海量股票评论中蕴含的投资者情绪为相关领域的研究提供了更加丰富的素材。近年来, 投资者情绪的研究尝试对投资者网络行为进行刻画, 一些学者采用文本挖掘的方式, 构建股票评论的投资者情绪指标, 并通过网络情绪指标对股票市场走势进行预测[9,10,11]。不过, 该领域的研究还处于起步阶段, 在情绪指标的构造、不同市场的有效性等方面尚未形成统一的观点。因此, 本文的研究围绕两个问题展开: 构造同时考虑评论“发布者”和“关注者”的投资者情绪指标; 检验“发布者-关注者”投资者情绪与股票大盘走势的关联性。

具体而言, 本文以“新浪财经”股评论坛中“上证指数”的大盘评论为研究对象, 应用情感词典匹配方法对股票评论进行情感分类, 构建“发布者-关注者”投资者情绪指标BSI(Bullish Sentiment Index), 进而建立线性回归模型和非线性模型, 对文本挖掘的BSI与上证指数收盘价格、收益率的关联性进行实证检验, 并围绕实证结果展开讨论。本文将丰富金融文本挖掘领域的研究内容, 构建的“发布者-关注者”BSI指标, 改进了现有文本挖掘的BSI指标, 使其显示出网络文本信息的独特性, 对投资者情绪的测量体系有一定的补充作用。

2 相关研究

2.1 投资者情绪与股票市场

投资者情绪与股票市场关联性的研究, 目前主要关注于不同情绪度量方法是否能对金融市场的股票价格、收益等进行有效预测。传统的投资者情绪度量指标分为直接指标和间接指标。直接度量指标多采取问卷调查方式, 询问投资者对股票市场未来走势所持有的态度(乐观或悲观), 进而使用乐观和悲观投资者的比例作为市场中投资者的情绪指标, 如美国个体投资者协会指数[3]、投资者智能指数[2]等; 间接度量指标则侧重于市场客观因素, 利用金融市场上的各种客观数据反映投资者情绪, 如股票市场的成交量、换手率、波动率等代理变量[8,12-14]

在这两类情绪指标的研究中, 学者们均发现投资者情绪与股票市场的关联性, 比如, Brown等[2]和Fisher等[3]检验美国个人投资者协会指数和投资者情报指数等直接度量指标与股票市场收益的相关性; Baker等[1]和Chen等[15]的研究发现股票市场IPO数量、首日平均收益率和发行股数, 以及股票交易的换手率和成交量、封闭式基金折价率等间接度量指标, 能够显著影响股票价格和收益; 陆静等[12]和王春[14]通过对开放式基金净流入、证券基金收益率、股票交易换手率和市盈率等投资者情绪代理变量的研究发现, 投资者情绪与股票价格呈现出正相关关系。

不过, 由于传统投资者情绪多以代理变量形式出现, 并不是投资者情绪的直接表达, 传统投资者情绪对市场的预测能力是有限的, 甚至一些研究显示其对股票市场的影响并不显著[7], 传统度量指标对投资者情绪的刻画尚存在一定的不足。针对这一问题, 一些学者尝试从投资者的网络行为中获取更直接的情绪指标, 并检验其在股票市场中的有效性, 基于文本挖掘的投资者情绪成为主要的研究对象。

2.2 基于文本挖掘的投资者情绪相关研究

目前, 基于文本挖掘的投资者情绪的相关研究主要关注于网络情绪来源、情感分类方法、情绪指标构造和股票实证检验等关键环节。在网络情绪来源方面, 多数研究数据来自财经网站或社交媒体的股吧论坛板块, 包括新浪财经[16,17]、东方财富网[16]、新浪微博[18]、Yahoo Finance[19]、Twitter[20]等。股吧的评论数据多选择个股评论, 仅有少数学者针对整体市场评论数据进行研究[18]

在情感分类方法方面, 研究者主要采用机器学习方法和语义分析方法对股票评论的情感倾向进行分类。Kearney等[21]指出两种方法各有利弊, 机器学习方法一般分类准确率较高, 但依赖于熟悉金融股票市场的人员进行手工分类, 构造训练集; 而语义分析方法(特别是基于词典的方法), 在经济金融分析中更加简单易用, 但普通词典难以适用于金融语境[21], 关键在于金融专用词集的构建[22]。最新的文献中, Renault[23]在对StockTwits评论的研究中对比两类方法, 发现基于词典的方法与机器学习方法的分类效果基本相同, 但前者比后者更加清晰明了。国内相关研究中, 两类方法均有应用, 都显示出较好的分类效果。如王洪伟等[17]采用SVM的文本分类方法, 对新浪股吧评论数最多的30只个股进行情感分类, 整体准确率达到95.78%; 黄润鹏等[18]采用情感词典匹配方法对新浪微博上证指数评论进行分类, 同样得到较好的分类效果。

在情绪指标的构造方面, 不少学者采用Antweiler等[9]提出“看涨指数”(Bullisness Index)作为投资者情绪指标BSI变量, 即以日为单位, 对当日每篇股票评论的情感倾向进行整合, 形成每日投资者情绪值。如杨晓兰等[24]参考Antweiler等[9]的研究, 以东方财富网股吧的“积极”和“消极”帖子数量为基础, 构建每日的情绪指数变量。也有一些学者尝试其他形式的情绪变量, 如Bollen等[25]的研究应用两类情绪追踪工具(Mood Tracking Tools), OpinionFinder (OF)和Google-Profile of Mood States (GPOMS), 构造情绪变量, 研究二维情绪(OF)和多维度情绪(GPOMS)指标对金融市场的预测效果。大多数研究仅测量网络评论“发布者”的情绪(帖子本身的情绪), 目前尚未发现考虑评论“关注者”(帖子浏览量)情绪作用的研究。网络评论相关领域的研究指出, 评论的受关注程度是影响信息接收者认知的重要因素之一[26,27]。因此, 评论关注者的相关信息有待于纳入情绪指标进行检验。

在股票实证检验方面, 现有研究一般采用线性模型或非线性模型检验文本挖掘的情绪指标与市场表现的关联性。Oliveira等[28]指出两类模型各有优劣, 多元线性回归得到的结果更容易解释金融现象, 但难以检验非线性关系; 非线性模型, 如支持向量机(SVM)、神经网络(NN)和随机森林(RF)等方法, 应用更加灵活并适用于处理非线性关系, 但一些方法(如SVM、NN等)容易出现过度拟合(Overfit)以及超参数(Hyperparameter)设置的问题。此外, 非线性模型的结论需要借助敏感性和可视化技术才能很好地被理 解[29]。因此, 不少学者采用线性和非线性模型相结合地方法进行实证检验, 不论采用何种回归模型, 多数实证结果验证了从网络股评中提取投资者情绪预测股市走势的可行性[16-20,28]

综上所述, 互联网环境下的投资者情绪构建成为传统情绪指标的重要补充, 基于文本挖掘的投资者情绪的相关研究在网络情绪来源、情感分类方法、情绪指标构造、股票实证检验等方面都进行过探索, 取得一系列突出性的研究成果。不过, 该领域尚有不少问题值得进一步探索。首先, 多数文献通过个股的网络评论的文本挖掘, 构造微观层面的“个股”情绪指标, 未能反映更广泛的市场情绪状况, 宏观层面的“市场”情绪指标尚有待于进一步挖掘。其次, 投资者情绪指标的构造方面, 现有研究仅考虑股评发布者所表达的情绪倾向, 没有将评论关注者的相关信息纳入情绪指标, 而股票评论受关注程度蕴含着重要的情绪信息, 同时也是有别于传统情绪, 属于网络情绪特有的重要特征。如何综合考虑发布者和关注者的情绪倾向, 构造具有网络特征的投资者情绪指标, 值得进一步探索。

3 投资者情绪指标构建

本文通过对互联网中的股票评论进行文本情感分类, 构造投资者情绪指标(BSI), 主要分为三个步骤, 如图1所示。

图1   投资者情绪指标构建过程

   

(1) 数据获取与预处理: 利用爬虫程序对“新浪财经”的相关股票数据进行抓取, 通过数据清洗, 清除与股票无关的评论数据和重复的股票评论数据;

(2) 情感分类: 应用基于词典匹配的语义分析方法进行情感分类;

(3) 投资者情绪指标构建: 应用情感分类结果, 并综合考虑股评发布者与关注者因素, 构造“发布者-关注者”综合BSI指标。

3.1 数据获取与预处理

选择国内财经金融领域影响较大的“新浪财经”中“新浪股吧”投资者网络社区为数据来源平台, 编写程序对“上证指数”股评专栏2016年全年的评论信息进行抓取, 包括评论的标题、内容、关注度(帖子点击量)、发布时间等数据。

获取的评论中包含大量重复评论、非股票相关评论, 首先对原始评论数据进行清洗, 以保证文本分类的有效性。通过对爬取的大盘评论进行数据清洗, 去除重复评论和非股票相关的评论, 最终得到64 154条有效评论, 股票评论数据的描述性统计如表1所示。

表1   上证指数股票评论数据描述性统计

   

统计指标均值标准差最大值最小值
评论标题长度(字)17.0425.33362
评论内容长度(字)363.349562.503128752
评论关注度(万次)1.58313.232653.9840.012
每日发帖数量(条)252.459207.73313733
每日关注数量(万次)453.977446.9262972.2887.217

新窗口打开

3.2 情感分类

采用基于词典的语义分析方法对股票评论进行情感分类, 该方法在文本挖掘领域有着广泛的应用, 其核心技术之一是情感词典匹配, 关键在于情感词典构建和匹配算法设计。情感词典的构建可分为三种: 基于手工的方法、基于主流词典的方法和基于语料的方法[30]。由于金融领域存在独有的积极和消极词, 仅将主流情感词典(如HowNet词典)作为情感分类的词典, 会降低分类准确率。因此本文采用人工标注和主流词典相结合的方法构造专用情感词典。情感词典具体构造步骤如下:

(1) 对64 154条股票评论进行分词和筛选, 得到金融情感词集。邀请三名有股票经验的硕士研究生独立对词集进行情感极性判定, 如果三人判定不一致, 则由三人共同对该词的情感极性进行重新判定。最后, 统计积极和消极的词集组成人工标注的金融情感词典。共得到积极情感词194个, 消极情感词296个。

(2) 将人工标注的情感词典与HowNet词典合并, 作为本文股票评论情感分类的金融情感词典。

本文采用的匹配方法为: 统计每条股评中积极词和消极词的个数, 如果一条股评中积极词个数大于消极词个数, 则此条评论为积极评论, 否则为消极评论。为了检验词典匹配方法的准确性, 从64 154条股票评论中随机抽取500条股票评论进行人工情感标注, 并将人工标注的股票评论与金融情感词典进行匹配测试。最终得到情感词典匹配方法的“看涨情绪倾向”和“看跌情绪倾向”的召回率、准确率和F值, 如表2所示。应用情感词典匹配方法, 对64 154条股票评论进行“看涨”与“看跌”的情感分类, 得到2016年全年内每个交易日的“看涨”和“看跌”的股评数量, 总的情感分类数据描述性统计如表3所示。

表2   情感词典匹配方法的分类效果

   

情感倾向指标分类效果
看涨召回率94.6%
准确率90.6%
F值92.7%
看跌召回率93.5%
准确率89.6%
F值91.5%

新窗口打开

表3   股票评论情感分类数据描述性统计

   

均值标准差最大值最小值
每日看涨评论数量(条)143.00118.678891
每日看跌评论数量(条)108.98111.446352

新窗口打开

3.3 投资者情绪指标构建

根据股票评论情感分类得到的情绪倾向, 并结合每条评论的关注度构造BSI情绪指标。笔者认为投资者情绪是股评发布者与关注者情绪的合成, 因此在考虑股评发布者情绪倾向的同时, 引入股评关注者的情感倾向权重, 尝试构造一类“发布者-关注者”BSI情绪指标。

(1) “发布者-关注者”综合情感倾向SV

在设计每条评论的“发布者-关注者”综合情感倾向时, 重点考虑两方面问题: 发布者和关注者的情感倾向权重问题; 如何将发布者和关注者的情感倾向综合在一起。

①情感倾向权重设计。设定每条评论(发布者)的情感倾向权重为1, 评论关注者的情感倾向通过两种方式进行调整: 对数调整(Logarithm Adjustment), 关注者情感权重为ln(1+n)(n代表该条评论受到多少其他投资者关注, 即该条评论的关注度, 1+n的设置确保当关注度为0时, 对数值为0); 比值调整(Ratio Adjustment), 关注者情感权重为$\frac{n}{\mathop{\sum }^{}n}$ ($\mathop{\sum }^{}n$代表每日评论的关注度总和)。

②情感倾向合成方法。采用加法合成与乘法合成两种方式: 加法合成(Additive Combination)将发布者与关注者的权重相加得到; 乘法合成(Multiplicative Combination)则通过两者权重相乘得到。

通过以上操作, 得到每条评论的4种“发布者-关注者”综合情感倾向值SV(Sentiment Value), 结果如表4所示。

表4   “发布者-关注者”综合情感倾向值SV计算方法

   

合成方法
调整方法
加法合成乘法合成
对数调整$S{{V}_{la}}=1+\ln (1+n)$$S{{V}_{lm}}=1\times \ln (e+n)$
比值调整$S{{V}_{ra}}=1+\frac{n}{\mathop{\sum }^{}n}$$S{{V}_{rm}}=1\times \frac{n}{\mathop{\sum }^{}n}$

(注: 在$S{{V}_{lm}}$中, e为自然对数底数, $\ln (e+n)$的设置确保评论关注度为0时, 对数值为1。)

新窗口打开

分别计算每条看涨和看跌评论的4种综合情感倾向值SV, 进而计算每日的评论中看涨情绪倾向值累计之和$\mathop{\sum }^{}S{{V}_{涨}}$, 以及看跌情绪倾向值累计之和$\mathop{\sum }^{}S{{V}_{跌}}$, 用于下一步构造BSI指标。

(2) “发布者-关注者”BSI指标

常用的投资者情绪指标是由Antweiler等[9]提出的一系列“看涨指数”组成。根据“看涨指数”, 构造三类“发布者-关注者”BSI指标。

$BS{{I}_{1}}=\frac{\mathop{\sum }^{}S{{V}_{涨}}}{\mathop{\sum }^{}S{{V}_{涨}}+\mathop{\sum }^{}S{{V}_{跌}}}$

$BS{{I}_{2}}=\ln (\frac{1+\mathop{\sum }^{}S{{V}_{涨}}}{1+\mathop{\sum }^{}S{{V}_{跌}}})$

$BS{{I}_{3}}=\frac{\mathop{\sum }^{}S{{V}_{涨}}-\mathop{\sum }^{}S{{V}_{跌}}}{\mathop{\sum }^{}S{{V}_{涨}}+\mathop{\sum }^{}S{{V}_{跌}}}$

其中, BSI1反映看涨情绪在总体评论中的比例; BSI2反映看涨与看跌情绪的比例; BSI3反映涨跌情绪差异在总体评论中的比例。$S{{V}_{涨}}$和$S{{V}_{跌}}$分别代表每条看涨或看跌评论所表达的投资者情感倾向值。$\mathop{\sum }^{}S{{V}_{涨}}$和$\mathop{\sum }^{}S{{V}_{跌}}$分别表示每日看涨和看跌综合情感倾向累积值。分别通过4种情绪倾向值SV, 构造三类投资者情绪指标, 共得到12个BSI指标, 分别记为: “BSIla1BSIla2BSIla3”, “BSIlm1BSIlm2BSIlm3”, “BSIra1BSIra2BSIra3”, “BSIrm1BSIrm2BSIrm3”。

4 线性回归模型与变量设置

为了更好地解释文本挖掘的“发布者-关注者”投资者情绪与股票市场的关联性, 本文首先采用多元线性回归模型展开进一步的分析。建立以下多元回归模型, 并利用层级回归方法进行检验。模型一用于检验投资者情绪与上证综合指数的关联性, 如公式(1)所示; 模型二用于检验投资者情绪与上证指数收益率的关联性, 各自的子模型分别讨论三类BSI指标变量的作用, 如公式(2)所示。

$\begin{align} & C{{I}_{1t}}={{\alpha }_{1}}+{{\beta }_{11}}C{{I}_{t-1}}+{{\beta }_{12}}FR+{{\beta }_{13}}TR+{{\beta }_{14}}BS{{I}_{1t}}+{{\beta }_{15}}BS{{I}_{1(t-1)}} \\ & C{{I}_{2t}}={{\alpha }_{2}}+{{\beta }_{21}}C{{I}_{t-1}}+{{\beta }_{22}}FR+{{\beta }_{23}}TR+{{\beta }_{24}}BS{{I}_{2t}}+{{\beta }_{25}}BS{{I}_{2(t-1)}} \\ & C{{I}_{3t}}={{\alpha }_{3}}+{{\beta }_{31}}C{{I}_{t-1}}+{{\beta }_{32}}FR+{{\beta }_{33}}TR+{{\beta }_{34}}BS{{I}_{3t}}+{{\beta }_{35}}BS{{I}_{3(t-1)}} \\ \end{align}$ (1)

$\begin{align} & {{R}_{1t}}={{\delta }_{1}}+{{\gamma }_{11}}FR+{{\gamma }_{12}}TR+{{\gamma }_{13}}BS{{I}_{1t}}+{{\gamma }_{14}}BS{{I}_{1(t-1)}} \\ & {{R}_{2t}}={{\delta }_{2}}+{{\gamma }_{21}}FR+{{\gamma }_{22}}TR+{{\gamma }_{23}}BS{{I}_{2t}}+{{\gamma }_{24}}BS{{I}_{2(t-1)}} \\ & {{R}_{3t}}={{\delta }_{3}}+{{\gamma }_{31}}FR+{{\gamma }_{32}}TR+{{\gamma }_{33}}BS{{I}_{3t}}+{{\gamma }_{34}}BS{{I}_{3(t-1)}} \\ \end{align}$ (2)

(1) 被解释变量(CIR)

选取每个交易日的上证综合指数(SSE Composite Index, CIt)和上证指数收益率(Returns, Rt)衡量股票 市场整体表现, 分别作为模型一和模型二的被解释 变量。

(2) 解释变量(BSI1BSI2BSI3)

采用本文构造的三类“发布者-关注者”BSI指标作为模型的解释变量。由于实际股票市场中, 投资者情绪可能具有持续性的影响, 将考虑投资者情绪的滞后效应, 分别计算三类情绪指标当日的BSIt和前一日的BSIt-1

(3) 控制变量(FRTRCIt-1)

除了文本挖掘的BSI变量外, 考虑采用传统的投资者情绪指标作为控制变量。在现有的文献中, 不少学者使用股票市场的波动率、换手率等作为投资者情绪指标。波动率衡量一定时间内股票价格或投资收益的变化程度, 反映投资者对股票交易的风险变化倾向; 换手率即在一段时间股票市场中投资者进行股票转手买卖的频率, 反映股票市场交易的活跃程度。选用波动率(Fluctuation Rate, FR)和换手率(Turnover Rate, TR)作为模型的控制变量, 从而检验文本挖掘的BSI变量能否在传统情绪指标的基础上提高模型的解释能力。考虑到股票市场价格的惯性, 在模型一中加入前一日的上证综合指数(CIt-1)作为控制变量。

多元回归模型的变量设置如表5所示。

表5   变量设置

   

变量性质变量名称变量符号变量描述
被解释变量当日上证综合指数CIt上证综合指数的当日收盘价
当日上证指数收益率Rt上证综合指数的当日收益率
解释变量当日投资者情绪指数BSIt基于文本挖掘的“发布者-关注者”当日综合情绪指标
前一日投资者情绪指数BSIt-1基于文本挖掘的“发布者-关注者”前一日综合情绪指标
控制变量波动率FR上证市场一个交易日中股票收益的变化程度
换手率TR上证市场一个交易日中股票转手买卖的频率
前一日上证综合指数CIt-1上证综合指数的前一日收盘价

新窗口打开

(4) 股票市场数据收集

通过Wind金融数据库收集股票市场的相关变量数据。与文本挖掘方法得到的每日“发布者-关注者” BSI指标相对应, 股票市场数据包括2016年全年的每日上证综指、收益率、波动率、换手率等数据。

5 实证结果分析

5.1 投资者情绪与上证综合指数的关联性

利用层级回归对4种SV构造的“发布者-关注者” BSI指标(BSIlaBSIlmBSIraBSIrm)与上证综合指数的关联性进行研究, 实证结果如表6所示。M1中加入控制变量, 模型对因变量CI的解释率为93.1%, 并且三个控制变量均对上证指数产生显著影响, 其中前一日上证综指CIt-1变量产生正向影响, 印证了股票市场价格的惯性规律; 换手率TR变量产生正向影响, 表明市场交投活跃程度越高, 股票价格越高; 波动率FR变量产生负向影响, 表明投资者的价格预期分歧越大, 股票价格越低。M2、M3和M4中分别加入文本挖掘的三类BSI情绪指标, 包括当日情绪指标BSIt和前一日情绪指标BSIt-1。从表6可以看到, 相对于M1模型, M2、M3和M4在加入新构造的投资者情绪变量后, 解释能力得到显著提高, 并且解释变量的系数都非常显著, 说明三类BSI情绪指标均会对上证指数产生有效影响。从三个模型中BSI系数的符号可以看出, 当日情绪指标BSIt的系数均显著为正, 表明投资者情绪与上证指数正相关, 当日情绪越高涨, 股票市场价格越高; 前一日情绪指标BSIt-1的系数均显著为负(除BSIrm不显著外), 显示出投资者情绪的滞后效应: 前期的投资者情绪会对后期股票市场价格产生一定的修正作用。

表6   模型一回归分析结果(因变量为“上证综合指数”CI, 样本数量N=244)

   

变量M1BSIlaBSIlmBSIraBSIrm
M2M3M4M2M3M4M2M3M4M2M3M4
系数系数系数系数系数系数系数系数系数系数系数系数系数
(t值)(t值)(t值)(t值)(t值)(t值)(t值)(t值)(t值)(t值)(t值)(t值)(t值)
BSI1t123.018***124.322***165.589***59.520***
(9.352)(-9.415)(-12.013)(-6.263)
BSI1(t-1)-53.927***-50.790***-77.985***-13.733
(-4.102)(-3.862)(-5.682)(-1.453)
BSI2t20.055***20.661***35.956***30.154***
(8.104)(-8.26)(-11.506)(-5.69)
BSI2(t-1)-8.395***-8.212***-16.845***-3.138
(3.370)(-3.270)(-5.397)(-0.583)
BSI3t61.384***62.163***82.794***29.781***
(9.318)(-9.415)(-12.013)(-6.27)
BSI3(t-1)-26.990***-25.397***-38.992***-6.894
(-4.099)(-3.862)(-5.682)(-1.460)
TR26.038***21.900***22.794***21.784***21.702***22.785***21.703***19.940***19.532***19.940***21.871***22.477***21.871***
(5.323)(5.050)(5.117)(5.013)(-5.034)(-5.159)(-5.034)(-4.94)(-4.726)(-4.94)(-4.744)(-4.802)(-4.745)
FR-18.104***-16.033***-16.957***-16.000***-15.786***-16.783***-15.786***-14.292***-14.383***-14.292***-16.120***-15.870***-16.126***
(-7.202)(-7.269)(-7.486)(-7.241)(-7.161)(-7.440)(-7.161)(-6.974)(-6.868)(-6.974)(-6.775)(-6.496)(-6.780)
CIt-10.888***0.903***0.898***0.903***0.904***0.899***0.904***0.908***0.907***0.908***0.892***0.889***0.892***
(48.314)(57.627)(55.295)(57.564)(-57.791)(-55.599)(-57.791)(-62.967)(-61.919)(-62.967)(-52.028)(-51.123)(-52.041)
常数项306.752***223.635***275.881***258.798***219.170***272.781***255.947***198.677***246.595***242.479***270.757***302.424***293.549***
(5.640)(4.717)(5.741)(5.571)(-4.621)(-5.702)(-5.526)(-4.575)(-5.684)(-5.678)(-5.339)(-5.882)(-5.798)
F28.539***46.424***34.778***46.118***47.255***36.252***47.257***77.309***71.110***77.309***20.208***16.323***20.258***
R20.9310.9510.9470.9510.9510.9480.9510.9590.9570.9590.9410.940.941
ΔR20.931***0.020***0.016***0.020***0.020***0.016***0.020***0.028***0.026***0.028***0.010***0.009***0.010***

(注: *代表p<0.05, **代表p<0.01, ***代表p<0.001。)

新窗口打开

上证综合指数的回归分析表明, 4种SV构造的“发布者-关注者”BSI指标与上证综合指数存在较强的关联性, 能够有效预测股票市场的价格走势。

5.2 投资者情绪与上证指数收益率的关联性

利用层级回归对4种SV构造的“发布者-关注者”BSI指标(BSIlaBSIlmBSIraBSIrm)与上证指数收益率的关联性进行研究, 实证结果如表7所示。M1中加入控制变量, 模型解释传统投资者情绪指标对因变量R的影响, 即两个传统投资者情绪指标均对股市收益率产生显著影响, 其中换手率TR变量产生正向影响, 表明市场交投活跃程度越高, 股票市场收益率越高; 波动率FR变量产生负向影响, 表明投资者的价格预期分歧越大, 股票市场收益率越低。M2、M3和M4中分别加入文本挖掘的当日情绪指标BSIt和前一日情绪指标BSIt-1。从表7可以看到, 在加入新构造的投资者情绪变量后, M2、M3和M4的解释能力相对于M1的解释能力(9.3%)明显得到提升, 其中BSIra模型的解释能力尤为突出, 最大提高了35.8%(ΔR2)。说明基于文本挖掘的BSI情绪指标对市场收益率的作用, 远大于传统投资者情绪指标(换手率和波动率)。M2、M3和M4模型的当日情绪指标BSIt的系数均显著为正, 表明投资者情绪与市场收益率正相关, 当日情绪越高涨, 股票市场收益率越高; 前一日情绪指标BSIt-1的系数均显著为负(除BSIrm不显著外), 显示出投资者情绪的滞后效应: 前期的投资者情绪会对后期股票市场收益率产生一定的修正作用。

表7   模型二回归分析结果(因变量为“上证综指收益率”R, 样本数量N=244)

   

变量M1BSIlaBSIlmBSIraBSIrm
M2M3M4M2M3M4M2M3M4M2M3M4
系数系数系数系数系数系数系数系数系数系数系数系数系数
(t值)(t值)(t值)(t值)(t值)(t值)(t值)(t值)(t值)(t值)(t值)(t值)(t值)
BSI1t4.421***4.475***5.858***2.040***
(9.330)(-9.455)(-11.779)(-5.923)
BSI1(t-1)-1.917***-1.806***-2.880***-0.621
(-4.064)(-3.821)(-5.835)(-1.826)
BSI2t0.713***0.736***1.272***1.013***
(7.995)(-8.173)(-11.281)(-5.267)
BSI2(t-1)-0.307***-0.300***-0.622***-0.209
(-3.416)(-3.311)(-5.538)(-1.076)
BSI3t2.205***2.237***2.929***1.021***
(9.370)(-9.455)(-11.779)(-5.932)
BSI3(t-1)-0.962***-0.903***-1.440***-0.311
(-4.055)(-3.822)(-5.835)(-1.832)
TR0.554***0.446**0.469**0.442**0.440**0.469**0.440**0.404**0.387**0.404**0.431**0.451**0.431**
(3.286)(2.937)(3.031)(2.971)(-2.953)(-3.066)(-2.953)(-2.859)(-2.677)(-2.859)(-2.683)(-2.756)(-2.684)
FR-0.391***-0.342***-0.369***-0.341***-0.334***-0.363***-0.334***-0.295***-0.297***-0.295***-0.336***-0.328***-0.336***
(-4.631)(-4.582)(-4.809)(-4.607)(-4.505)(-4.765)(-4.505)(-4.230)(-4.162)(-4.230)(-4.145)(-3.914)(-4.150)
常数项-0.593-2.008***-0.691*-0.748**-2.120***-0.724*-0.786**-2.307***-0.760**-0.818**-1.341***-0.628*-0.632*
(-1.777)(-2.634)(-2.341)(-4.768)(-4.897)(-2.464)(-2.773)(-5.548)(-2.861)(-3.127)(-3.271)(-1.982)(-2.018)
F11.980***46.563***34.081***46.238***47.615***35.709***47.615***75.529***69.446***75.529***18.659***14.390***18.718***
R20.0930.3530.2990.3510.3570.3060.3570.4510.4330.4510.2190.1930.219
ΔR20.093***0.260***0.206***0.259***0.264***0.214***0.264***0.358***0.340***0.358***0.126***0.100***0.126***

(注: *代表p<0.05, **代表p<0.01, ***代表p<0.001。)

新窗口打开

上证指数收益率的回归分析表明, 文本挖掘方法得到的“发布者-关注者”BSI指标与市场收益率存在较强的关联性, 能够有效预测股票市场的收益率。

以上两组线性回归模型对投资者情绪与上证综合指数和市场收益率关联性的分析得到了一致的结论: “发布者-关注者”BSI情绪指标会对股票市场的价格和收益率产生重要影响, 文本挖掘方法构造的投资者情绪可以为传统情绪指标提供有益补充, 能够更有效地对股票市场走势进行预测。对比模型一和模型二, 还发现, 4种SV构造的BSI指标对市场收益率的预测贡献最大超过35%, 而对市场价格的预测贡献仅有2%左右, 说明BSI指标对收益率的作用相对更大。

5.3 实证结果鲁棒性检验

本文在构造BSI情绪指标时, 同时考虑股评“发布者”和“关注者”的情绪倾向, 并在多元回归模型中得到实证验证。为了检验该结论的稳定性, 分别构造“发布者”BSI指标(Poster BSI, PBSI)和关注度指标(Attention, ATT), 将两类变量纳入多元回归模型, 并讨论存在投资者情绪与关注度交互作用(PBSI×ATT)的情况下, 投资者情绪对股票市场的影响。建立如下模型进行鲁棒性分析, 如公式(3)和公式(4)所示。

$\begin{align} & C{{I}_{1t}}={{\alpha }_{1}}+{{\beta }_{11}}C{{I}_{t-1}}+{{\beta }_{12}}FR+{{\beta }_{13}}TR+{{\beta }_{14}}AT{{T}_{t}}+{{\beta }_{15}}AT{{T}_{t-1}}+{{\beta }_{16}}PBS{{I}_{1t}}+ \\ & {{\beta }_{17}}PBS{{I}_{1(t-1)}}+{{\beta }_{18}}PBS{{I}_{1t}}\times AT{{T}_{t}}+{{\beta }_{19}}PBS{{I}_{1(t-1)}}\times AT{{T}_{t-1}} \\ & C{{I}_{2t}}={{\alpha }_{2}}+{{\beta }_{21}}C{{I}_{t-1}}+{{\beta }_{22}}FR+{{\beta }_{23}}TR+{{\beta }_{24}}AT{{T}_{t}}+{{\beta }_{25}}AT{{T}_{t-1}}+{{\beta }_{26}}PBS{{I}_{2t}}+ \\ & {{\beta }_{27}}PBS{{I}_{2(t-1)}}+{{\beta }_{28}}PBS{{I}_{2t}}\times AT{{T}_{t}}+{{\beta }_{29}}PBS{{I}_{2(t-1)}}\times AT{{T}_{t-1}} \\ & C{{I}_{3t}}={{\alpha }_{3}}+{{\beta }_{31}}C{{I}_{t-1}}+{{\beta }_{32}}FR+{{\beta }_{33}}TR+{{\beta }_{34}}AT{{T}_{t}}+{{\beta }_{35}}AT{{T}_{t-1}}+{{\beta }_{36}}PBS{{I}_{3t}}+ \\ & {{\beta }_{37}}PBS{{I}_{3(t-1)}}+{{\beta }_{38}}PBS{{I}_{3t}}\times AT{{T}_{t}}+{{\beta }_{39}}PBS{{I}_{3(t-1)}}\times AT{{T}_{t-1}} \\ \end{align}$ (3)

$\begin{align} & {{R}_{1t}}={{\delta }_{1}}+{{\gamma }_{11}}FR+{{\gamma }_{12}}TR+{{\gamma }_{13}}AT{{T}_{t}}+{{\gamma }_{14}}AT{{T}_{t-1}}+{{\gamma }_{15}}PBS{{I}_{1t}}+ \\ & {{\gamma }_{16}}PBS{{I}_{1(t-1)}}+{{\gamma }_{17}}PBS{{I}_{1t}}\times AT{{T}_{t}}+{{\gamma }_{18}}PBS{{I}_{1(t-1)}}\times AT{{T}_{t-1}} \\ & {{R}_{2t}}={{\delta }_{2}}+{{\gamma }_{21}}FR+{{\gamma }_{22}}TR+{{\gamma }_{23}}AT{{T}_{t}}+{{\gamma }_{24}}AT{{T}_{t-1}}+{{\gamma }_{25}}PBS{{I}_{2t}}+ \\ & {{\gamma }_{26}}PBS{{I}_{2(t-1)}}+{{\gamma }_{27}}PBS{{I}_{2t}}\times AT{{T}_{t}}+{{\gamma }_{28}}PBS{{I}_{2(t-1)}}\times AT{{T}_{t-1}} \\ & {{R}_{3t}}={{\delta }_{3}}+{{\gamma }_{31}}FR+{{\gamma }_{32}}TR+{{\gamma }_{33}}AT{{T}_{t}}+{{\gamma }_{34}}AT{{T}_{t-1}}+{{\gamma }_{35}}PBS{{I}_{3t}}+ \\ & {{\gamma }_{36}}PBS{{I}_{3(t-1)}}+{{\gamma }_{37}}PBS{{I}_{3t}}\times AT{{T}_{t}}+{{\gamma }_{38}}PBS{{I}_{3(t-1)}}\times AT{{T}_{t-1}} \\ \end{align}$ (4)

表8是投资者情绪与关注度交互作用的分析结果, 可以看出, 模型三和模型四中, 投资者情绪PBSI对股票市场的作用与模型一和模型二中的结论基本一致, 并且, 当日的PBSI与关注度ATT存在显著的交互作用, 意味着在不同的关注度情况下, 股票评论所构造的投资者情绪对市场的作用程度是有差异的。鲁棒性检验结果表明, 本文构造的“发布者-关注者”BSI情绪指标对股票市场的影响具有稳定性。

表8   投资者情绪与关注度交互作用分析(样本数量N=244)

   

变量模型三(因变量为CI)模型四(因变量为R)
M1(PBSI1)M2(PBSI2)M3(PBSI3)M4(PBSI4)M5(PBSI5)M6(PBSI6)
系数
(t值)
系数
(t值)
系数
(t值)
系数
(t值)
系数
(t值)
系数
(t值)
PBSI1t145.850***
(7.315)
5.297***
(7.452)
PBSI1(t-1)-90.081***
(-4.609)
-3.211***
(-4.587)
PBSI1t×ATTt0.059*
(2.007)
0.002*
(2.188)
PBSI1(t-1)×ATTt-1-0.004
(-0.131)
0.000
(0.084)
PBSI2t30.313***
(6.683)
1.107***
(6.771)
PBSI2(t-1)-20.523***
(-4.596)
-0.732***
(-4.523)
PBSI2t×ATTt0.016*
(2.419)
0.001**
(2.584)
PBSI2(t-1)×ATTt-1-0.001
(-0.188)
0.000
(0.074)
PBSI3t71.315***
(7.182)
2.633***
(7.383)
PBSI3(t-1)-47.989***
(-4.932)
-1.697***
(-4.821)
PBSI3t×ATTt0.032*
(2.204)
0.001*
(2.293)
PBSI3(t-1)×ATTt-10.000
(0.032)
0.000
(0.253)
ATTt-1-0.007
(-0.364)
-0.010
(-1.653)
-0.011
(-1.756)
-0.000
(-0.136)
-0.000
(-0.335)
-0.000
(-0.414)
ATTt-0.031
(-1.683)
-0.007
(-1.102)
-0.005
(-0.771)
-0.001
(-1.511)
0.000
(0.048)
0.000
(0.425)
TR21.023***
(4.926)
21.168***
(4.932)
21.322***
(5.062)
0.376*
(2.609)
0.353*
(2.408)
0.363*
(2.534)
FR-14.154***
(-6.931)
-13.471***
(-6.478)
-13.351***
(-6.515)
-0.316***
(-4.523)
-0.294***
(-4.035)
-0.293***
(-4.076)
CIt-10.907***
(57.510)
0.897***
(56.140)
0.899***
(56.860)
常数项223.208***
(4.454)
282.514***
(5.920)
275.968***
(5.836)
-1.789**
(-2.867)
-0.614*
(-2.151)
-0.690*
(-2.442)
F2.0172.9272.4362.4083.371*2.689
R20.9600.9590.9600.4960.4860.500

(注: †代表p<0.1, *代表p<0.05, **代表p<0.01, ***代表p<0.001。)

新窗口打开

6 非线性模型检验

除了应用线性回归模型对BSI进行分析和解释, 采用非线性模型进行检验外, 不少学者也建议采用两类方法相互验证[28]。本文应用支持向量机模型(SVM)和随机森林模型(RF)两种方法, 对上证指数收盘价和收益率进行预测。两种方法构建的非线性模型的输出变量为收盘价CI或收益率R, 输入变量为控制变量(基础模型)和本文构建的BSI指标(以BSIla1BSIla2BSIla3为例)。具体模型设计如表9所示。

表9   非线性模型预测结果

   

预测模型输出变量输入变量MSE
SVM _CI _Base上证综合指数CIt控制变量(CIt-1TRFR)480.38
SVM _CI _BSI1控制变量、BSI1tBSI1(t-1)421.45
SVM _CI _ BSI2控制变量、BSI2t、BSI2(t-1)437.28
SVM _CI _ BSI3控制变量、BSI3t、BSI3(t-1)440.15
SVM _R _Base上证综指收益率Rt控制变量(TRFR)0.58
SVM _R _ BSI1控制变量、BSI1tBSI1(t-1)0.45
SVM _R _BSI2控制变量、BSI2t、BSI2(t-1)0.43
SVM _R _BSI3控制变量、BSI3t、BSI3(t-1)0.47
RF _CI _Base上证综合指数CIt控制变量(CIt-1TRFR)2633.16
RF _CI _BSI1控制变量、BSI1tBSI1(t-1)2034.15
RF _CI _BSI2控制变量、BSI2tBSI2(t-1)2126.18
RF _CI _BSI3控制变量、BSI3tBSI3(t-1)2301.17
RF _R _Base上证综指收益率Rt控制变量(TRFR)0.54
RF _R _BSI1控制变量、BSI1tBSI1(t-1)0.34
RF _R _BSI2控制变量、BSI2tBSI2(t-1)0.33
RF _R _BSI3控制变量、BSI3tBSI3(t-1)0.34

新窗口打开

在构建SVM模型和RF模型时, 为提高预测准确率, 首先进行超参数的设定。SVM的超参数主要包括核函数、惩罚参数C和核参数; RF模型的超参数主要包括基分类器个数和树的深度。本文采用交叉验证和网格搜索的方法进行超参数设定。超参数设定后, 选择2016年1月1日至2016 年10月31日的上证综指和收益率数据作为训练样本训练模型, 并对2016 年11月1日到2016年12月31日的上证综指和收益率进行预测, 得到预测结果。采用均方误差指标(Mean Squared Error, MSE)对预测结果进行评价, 均方误差越小, 代表预测效果越好, 预测结果如表9所示。可以看出, 应用SVM模型和RF模型, 无论上证综指CI还是收益率R, 加入BSI指标后模型的MSE均小于仅加入控制变量的基础模型(Base Model), 表明本文构建的投资者情绪指标BSI能够提高市场走势的预测能力。非线性模型的检验结果印证了线性回归的结论。

7 结 语

本文以“新浪财经”股吧中的“上证指数”网络评论为研究对象, 应用情感词典匹配的语义分析方法进行情感分类, 构造了4种“发布者-关注者”综合情感倾向SV, 依此构建三类“发布者-关注者”BSI指标, 并实证检验文本挖掘的投资者情绪指标对上证综指的股价和收益率的影响。研究发现: 本文构造的“发布者-关注者”BSI指标与上证综指的价格和收益率显著相关, 并且BSI对收益率的预测能力大于对股价的预测能力, 其最大解释度超过35%。还发现, 市场表现与当日的BSIt正相关、与前一日的BSIt-1负相关, 表明投资者情绪存在滞后效应(也对更早期的情绪BSIt-2BSIt-3等进行检验, 发现与市场表现并不相关): 在两日投资者情绪的共同驱动下, 当期情绪对当期市场表现产生同方向作用, 而前期情绪对当期市场表现产生修正作用。

本文的研究具有一定的理论意义, 检验了互联网中整体市场的投资者情绪的有效性, 是对前人在个股和局域市场投资者情绪研究的有益补充; 同时考虑网络评论“发布者”和“关注者”的情绪, 将评论的关注度纳入情感倾向值SV的计算, 构造并检验了“发布者-关注者”综合BSI指标。该BSI指标能够更加准确地反映网络评论的特征, 提高了网络文本BSI测量的精确性, 丰富了投资者情绪的测量体系。

未来可以在以下方面进行改进: 本文仅考虑涨跌两种情绪极性, 可以考虑对情感强度进行深入分析, 使投资者情绪的刻画更加细致; 将发布者和关注者的情绪统一纳入评论情感倾向中, 可以考虑将更多的网络特征纳入情感分析, 使BSI指标能够更全面地表达网络环境中的投资者情绪。

作者贡献声明

张宁: 提出研究思路, 设计研究方案;

尹乐民: 完善分析思路和论文中所需数据集合, 模型实现和检验, 论文起草及修订;

何立峰: 处理数据, 修改论文。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: yinlemin@126.com。

[1] 张宁, 尹乐民, 何立峰. Pinglun.csv. 原始股票评论文本数据集.

[2] 张宁, 尹乐民, 何立峰. Qinggan.csv. 股评情感倾向分类数据.

[3] 张宁, 尹乐民, 何立峰. Cidian.txt. 词典数据.

[4] 张宁, 尹乐民, 何立峰. Shizheng.csv. 实证检验数据.


参考文献

[1] Baker M, Wurgler J.

Investor Sentiment in the Stock Market

[J]. Journal of Economic Perspectives, 2007, 21(2): 129-151.

https://doi.org/10.1257/jep.21.2.129      URL      [本文引用: 3]     

[2] Brown G W, Cliff M T.

Investor Sentiment and the Near-term Stock Market

[J]. Journal of Empirical Finance, 2004, 11(1): 1-27.

https://doi.org/10.1016/j.jempfin.2002.12.001      URL      [本文引用: 3]      摘要

We investigate investor sentiment and its relation to near-term stock market returns. We find that many commonly cited indirect measures of sentiment are related to direct measures (surveys) of investor sentiment. However, past market returns are also an important determinant of sentiment. Although sentiment levels and changes are strongly correlated with contemporaneous market returns, our tests show that sentiment has little predictive power for near-term future stock returns. Finally, our evidence does not support the conventional wisdom that sentiment primarily affects individual investors and small stocks.
[3] Fisher K L, Statman M.

Investor Sentiment and Stock Returns

[J]. Financial Analysts Journal, 2000, 56(2): 16-27.

https://doi.org/10.3905/jwm.1999.320352      URL      [本文引用: 4]      摘要

Investors are not all alike, and neither are their sentiments. We show that the sentiment of Wall Street strategists is unrelated to the sentiment of individual investors or that of newsletter writers, although the sentiment of the last two groups is closely related. Sentiment can be useful for tactical asset allocation. We found a negative relationship between the sentiment of each of these three groups and future stock returns, and the relationship is statistically significant for Wall Street strategists and individual investors.
[4] 王美今, 孙建军.

中国股市收益、收益波动与投资者情绪

[J]. 经济研究, 2004(10): 75-83.

URL      [本文引用: 1]      摘要

本文从我国股市的现实情况出发 ,构造理论模型证明 :投资者接受价格信号时表现出来的情绪是影响均衡价格的系统性因子。这一结论得到实际数据的支持 ,实证发现投资者情绪的变化不仅显著地影响沪深两市收益 ,而且显著地反向修正沪深两市收益波动 ,并通过风险奖励影响收益。研究结果表明 ,沪深两市不仅具有相同的投资者行为和风险收益特征 ,而且均未达到弱式有效 ,机构投资者是可能的噪声交易者风险源。

(Wang Meijin, Sun Jianjun.

Stock Market Returns, Volatility and the Role of Investor Sentiment in China

[J]. Economic Research Journal, 2004(10): 75-83.)

URL      [本文引用: 1]      摘要

本文从我国股市的现实情况出发 ,构造理论模型证明 :投资者接受价格信号时表现出来的情绪是影响均衡价格的系统性因子。这一结论得到实际数据的支持 ,实证发现投资者情绪的变化不仅显著地影响沪深两市收益 ,而且显著地反向修正沪深两市收益波动 ,并通过风险奖励影响收益。研究结果表明 ,沪深两市不仅具有相同的投资者行为和风险收益特征 ,而且均未达到弱式有效 ,机构投资者是可能的噪声交易者风险源。
[5] 郁晨.

投资者情绪理论、度量及应用研究综述

[J]. 金融评论, 2017(3): 111-126.

URL      [本文引用: 1]      摘要

投资者情绪是行为金融学理论的两大基石之一,越来越多的学者认为投资者情绪是资产价格的决定性因素,这和标准的金融理论有所区别。随着互联网大数据时代的到来,投资者情绪度量指标和构建方法有了新的突破,最新的研究开始采用数据挖掘技术从网络用户行为中提取更为客观、实时、高频和精准的网络社会情绪度量指标来代理投资者情绪。为此,本文详细梳理和评述投资者情绪理论的提出过程,投资者情绪的分类和度量指标的构建方法,投资者情绪在资产定价领域的应用研究的新进展,最后提出投资者情绪形成、传染和扩散机制,投资者情绪在新兴市场和非股票市场的影响等四点未来可能的研究方向,以期为国内学者在该领域的后续研究提供参考和借鉴。

(Yu Chen.

Investor Sentiment Theory: Measurement and Application

[J]. Chinese Review of Financial Studies, 2017(3): 111-126.)

URL      [本文引用: 1]      摘要

投资者情绪是行为金融学理论的两大基石之一,越来越多的学者认为投资者情绪是资产价格的决定性因素,这和标准的金融理论有所区别。随着互联网大数据时代的到来,投资者情绪度量指标和构建方法有了新的突破,最新的研究开始采用数据挖掘技术从网络用户行为中提取更为客观、实时、高频和精准的网络社会情绪度量指标来代理投资者情绪。为此,本文详细梳理和评述投资者情绪理论的提出过程,投资者情绪的分类和度量指标的构建方法,投资者情绪在资产定价领域的应用研究的新进展,最后提出投资者情绪形成、传染和扩散机制,投资者情绪在新兴市场和非股票市场的影响等四点未来可能的研究方向,以期为国内学者在该领域的后续研究提供参考和借鉴。
[6] Barberis N, Shleifer A, Vishny R.

A Model of Investor Sentiment

[J]. Journal of Financial Economics, 1998, 49(3): 307-343 .

https://doi.org/10.1016/S0304-405X(98)00027-0      URL      [本文引用: 1]     

[7] 张强, 杨淑娥, 杨红, .

中国股市投资者情绪与股票收益的实证研究

[J]. 系统工程, 2007, 25(7): 13-17.

https://doi.org/10.3969/j.issn.1001-4098.2007.07.003      URL      [本文引用: 2]      摘要

应用GARCH-M(1,1)模型检验了中国股市投资者情绪对股票收益的影响,结果发现:机构投资者情绪是影响股票价格的重要因素,但对不同市场和组合的影响方式不同且未形成系统风险;而个人投资者情绪的影响并不显著,也不存在小盘股主要受个人投资者情绪影响的现象。这与国外相关研究结论不同。

(Zhang Qiang, Yang Shue, Yang Hong.

An Empirical Study on Investors’ Sentiment and Stock Returns in Chinese Stock Market

[J].Systems Engineering, 2007, 25(7): 13-17.)

https://doi.org/10.3969/j.issn.1001-4098.2007.07.003      URL      [本文引用: 2]      摘要

应用GARCH-M(1,1)模型检验了中国股市投资者情绪对股票收益的影响,结果发现:机构投资者情绪是影响股票价格的重要因素,但对不同市场和组合的影响方式不同且未形成系统风险;而个人投资者情绪的影响并不显著,也不存在小盘股主要受个人投资者情绪影响的现象。这与国外相关研究结论不同。
[8] Stambaugh R F, Yu J F, Yuan Y.

The Short of It: Investor Sentiment and Anomalies

[J]. Journal of Financial Economics, 2012, 104(2): 288-302.

https://doi.org/10.1016/j.jfineco.2011.12.001      URL      [本文引用: 2]      摘要

This study explores the role of investor sentiment in a broad set of anomalies in cross-sectional stock returns. We consider a setting in which the presence of market-wide sentiment is combined with the argument that overpricing should be more prevalent than underpricing, due to short-sale impediments. Long-short strategies that exploit the anomalies exhibit profits consistent with this setting. First, each anomaly is stronger (its long-short strategy is more profitable) following high levels of sentiment. Second, the short leg of each strategy is more profitable following high sentiment. Finally, sentiment exhibits no relation to returns on the long legs of the strategies.
[9] Antweiler W, Frank M Z.

Is All that Talk just Noise? The Information Content of Internet Stock Message Boards

[J]. The Journal of Finance, 2004, 59(3): 1259-1294.

https://doi.org/10.1111/j.1540-6261.2004.00662.x      URL      [本文引用: 4]      摘要

Financial press reports claim that Internet stock message boards can move markets. We study the effect of more than 1.5 million messages posted on Yahoo! Finance and Raging Bull about the 45 companies in the Dow Jones Industrial Average and the Dow Jones Internet Index. Bullishness is measured using computational linguistics methods. Wall Street Journal news stories are used as controls. We find that stock messages help predict market volatility. Their effect on stock returns is statistically significant but economically small. Consistent with Harris and Raviv (1993), disagreement among the posted messages is associated with increased trading volume.
[10] Das S R, Chen M Y.

Yahoo! for Amazon: Sentiment Extraction from Small Talk on the Web

[J]. Management Science, 2007, 53(9): 1375-1388.

https://doi.org/10.1287/mnsc.1070.0704      URL      [本文引用: 1]      摘要

Extracting sentiment from text is a hard semantic problem. We develop a methodology for extracting small investor sentiment from stock message boards. The algorithm comprises different classifier algorithms coupled together by a voting scheme. Accuracy levels are similar to widely used Bayes classifiers, but false positives are lower and sentiment accuracy higher. Time series and cross-sectional aggregation of message information improves the quality of the resultant sentiment index, particularly in the presence of slang and ambiguity. Empirical applications evidence a relationship with stock values--tech-sector postings are related to stock index levels, and to volumes and volatility. The algorithms may be used to assess the impact on investor opinion of management announcements, press releases, third-party news, and regulatory changes.
[11] 蒋翠清, 梁坤, 丁勇, .

基于社会媒体的股票行为预测

[J]. 中国管理科学, 2015, 23(1): 17-24.

https://doi.org/10.16381/j.cnki.issn1003-207x.2015.01.003      URL      Magsci      [本文引用: 1]      摘要

通过社会媒体信息预测股票行为已经成为近年来金融和知识管理等领域的研究热点。考虑到社会媒体参与人员和讨论话题的多样性,传统的基于整体层面分析社会媒体信息来预测股票行为的方法过于粗糙。本文根据社会媒体信息在写作风格和内容特征上的不同,利用文本特征提取技术、主成分分析法、EM聚类技术等分析参与社会媒体的干系人和他们关注的话题。进一步,我们针对每类干系人和话题,从信息活动强度和情感倾向两个方面提取四个社会媒体变量构建股票行为的回归预测模型,用以分析各干系人和话题在社会媒体上的活动状况对公司股票行为的影响。最后,本文以雅虎金融论坛的Bank of America板块为实验平台进行实验研究,验证了所提出方法的有效性和实用性。

(Jiang Cuiqing, Liang Kun, Ding Yong, et al.

Predicting Stock Behavior via Social Media

[J]. Chinese Journal of Management Science, 2015, 23(1): 17-24.)

https://doi.org/10.16381/j.cnki.issn1003-207x.2015.01.003      URL      Magsci      [本文引用: 1]      摘要

通过社会媒体信息预测股票行为已经成为近年来金融和知识管理等领域的研究热点。考虑到社会媒体参与人员和讨论话题的多样性,传统的基于整体层面分析社会媒体信息来预测股票行为的方法过于粗糙。本文根据社会媒体信息在写作风格和内容特征上的不同,利用文本特征提取技术、主成分分析法、EM聚类技术等分析参与社会媒体的干系人和他们关注的话题。进一步,我们针对每类干系人和话题,从信息活动强度和情感倾向两个方面提取四个社会媒体变量构建股票行为的回归预测模型,用以分析各干系人和话题在社会媒体上的活动状况对公司股票行为的影响。最后,本文以雅虎金融论坛的Bank of America板块为实验平台进行实验研究,验证了所提出方法的有效性和实用性。
[12] 陆静, 周媛.

投资者情绪对股价的影响——基于AH股交叉上市股票的实证分析

[J]. 中国管理科学, 2015, 23(11): 21-28.

https://doi.org/10.16381/j.cnki.issn1003-207x.2015.11.003      URL      [本文引用: 2]      摘要

投资者情绪对股票价格的影响反映了资本市场上非理性因素对资产定价的作用程度。本文采用证券投资基金的损失率来构建投资者情绪指数,并以此研究了其对中国AH股交叉上市公司股票价格的影响。研究表明,在控制Fama-French三因素以及宏观经济变量的情况下,投资者情绪对同期的A股市场和H股市场都具有显著影响,即情绪高涨时,股票价格上涨,反之亦然;此外,投资者情绪对A股市场未来12月的收益率具有显著的反转预测,对H股市场未来6月的收益率具有显著的反转预测,说明中国大陆股票市场受投资者情绪影响的持续时间更长,反映了两个市场间非理性程度的差异和市场效率差异。本文的研究丰富了现有文献,为A股市场交易和监管制度的完善提供了理论和实证依据。

(Lu Jing, Zhou Yuan.

The Effect of Investor Sentiment on Stock Pricing—An Empirical Study Based on A-H Shares of Cross-listing Companies

[J]. Chinese Journal of Management Science, 2015, 23(11): 21-28.)

https://doi.org/10.16381/j.cnki.issn1003-207x.2015.11.003      URL      [本文引用: 2]      摘要

投资者情绪对股票价格的影响反映了资本市场上非理性因素对资产定价的作用程度。本文采用证券投资基金的损失率来构建投资者情绪指数,并以此研究了其对中国AH股交叉上市公司股票价格的影响。研究表明,在控制Fama-French三因素以及宏观经济变量的情况下,投资者情绪对同期的A股市场和H股市场都具有显著影响,即情绪高涨时,股票价格上涨,反之亦然;此外,投资者情绪对A股市场未来12月的收益率具有显著的反转预测,对H股市场未来6月的收益率具有显著的反转预测,说明中国大陆股票市场受投资者情绪影响的持续时间更长,反映了两个市场间非理性程度的差异和市场效率差异。本文的研究丰富了现有文献,为A股市场交易和监管制度的完善提供了理论和实证依据。
[13] 宋顺林, 王彦超.

投资者情绪如何影响股票定价?—基于IPO公司的实证研究

[J]. 管理科学学报, 2016, 19(5): 41-55.

https://doi.org/10.3969/j.issn.1007-9807.2016.05.004      URL      摘要

分析了投资者情绪如何影响股票定价,并以2006年-2011年间917家IPO公司为样本进行实证检验.结果发现:1)市场情绪和个股具体的情绪均显著影响IPO溢价.具体而言,市场情绪较高组比较低组的IPO溢价高36%(63%vs27%),个股具体情绪较高组比较低组的IPO溢价高24%(56%VS32%);2)公司价值不确定性越高,市场情绪对IPO溢价的影响越大,公司投机风险越高,市场情绪对IPO溢价的影响越小;3)IPO溢价较高的公司,其股价在上市后会逐渐反转.

(Song Shunlin, Wang Yanchao.

How does Investor Sentiment Affect Stock Pricing? An Empirical Research Based on IPO Firms

[J]. Journal of Management Sciences in China, 2016, 19(5): 41-55.)

https://doi.org/10.3969/j.issn.1007-9807.2016.05.004      URL      摘要

分析了投资者情绪如何影响股票定价,并以2006年-2011年间917家IPO公司为样本进行实证检验.结果发现:1)市场情绪和个股具体的情绪均显著影响IPO溢价.具体而言,市场情绪较高组比较低组的IPO溢价高36%(63%vs27%),个股具体情绪较高组比较低组的IPO溢价高24%(56%VS32%);2)公司价值不确定性越高,市场情绪对IPO溢价的影响越大,公司投机风险越高,市场情绪对IPO溢价的影响越小;3)IPO溢价较高的公司,其股价在上市后会逐渐反转.
[14] 王春.

投资者情绪对股票市场收益和波动的影响——基于开放式股票型基金资金净流入的实证研究

[J]. 中国管理科学, 2014, 22(9): 49-56.

URL      Magsci      [本文引用: 2]      摘要

投资者情绪立足于投资者非理性的角度,能够对股票市场的大幅波动作出较好的解释。当前国内以开放式股票型基金角度分析投资者情绪的研究尚为空白。本文以开放式股票型基金资金净流入作为投资者情绪的度量指标,运用GARCH-M模型研究了投资者情绪对股票市场收益和波动的影响。研究结果表明:投资者情绪与股票市场收益之间存在正向反馈作用;且在以股票市值为分类的组合中,发现大市值股票组合受投资者情绪影响的股票市场指数条件波动越大,股票组合收益越大;小市值股票组合受投资者情绪影响的股票市场指数条件波动越大,则股票组合收益反而越小。

(Wang Chun.

The Effect of Investor Sentiment on Return and Volatility of Stock Market-Based on Empirical Study of Open-end Equity Funds

[J]. Chinese Journal of Management Science, 2014, 22(9): 49-56.)

URL      Magsci      [本文引用: 2]      摘要

投资者情绪立足于投资者非理性的角度,能够对股票市场的大幅波动作出较好的解释。当前国内以开放式股票型基金角度分析投资者情绪的研究尚为空白。本文以开放式股票型基金资金净流入作为投资者情绪的度量指标,运用GARCH-M模型研究了投资者情绪对股票市场收益和波动的影响。研究结果表明:投资者情绪与股票市场收益之间存在正向反馈作用;且在以股票市值为分类的组合中,发现大市值股票组合受投资者情绪影响的股票市场指数条件波动越大,股票组合收益越大;小市值股票组合受投资者情绪影响的股票市场指数条件波动越大,则股票组合收益反而越小。
[15] Chen M P, Chen P F, Lee C C.

Asymmetric Effects of Investor Sentiment on Industry Stock Returns: Panel Data Evidence

[J]. Emerging Markets Review, 2013, 14(1): 35-54.

https://doi.org/10.1016/j.ememar.2012.11.001      URL      [本文引用: 1]      摘要

This article employs a state-of-the-art panel threshold model by allowing for regime intercepts, in order to shed new light on the asymmetric/nonlinear effects of local and global sentiments on expected industry stock returns among 11 Asian countries during the period from 1996 to 2010. Empirical evidence demonstrates that once the regime intercept is included, the asymmetric effects of global sentiment on oil & gas, financials, and health care industry returns become less under optimism, as compared with under pessimism. More critically, the positive (negative) impact of global sentiment above (under) the threshold turns significant, indicating that global optimism leads industry returns to be overvalued, while pessimism leads them to be undervalued. For local market sentiment, our results support that higher local sentiment enhances the returns of basic materials, telecommunications, and utilities industries. The empirical results confirm that the nexus of industry returns and investor sentiments is subject to change between different sentimental intervals. (C) 2012 Elsevier B.V. All rights reserved.
[16] 段江娇, 刘红忠, 曾剑平.

投资者情绪指数、分析师推荐指数与股指收益率的影响研究——基于我国东方财富网股吧论坛、新浪网分析师个股评级数据

[J]. 上海金融, 2014(11): 60-64.

URL      [本文引用: 3]      摘要

本文基于我国东方财富网股吧论坛和新浪网分析师个股评级数据,通过构建向量自回归VAR模型,检验了投资者情绪指数、分析师推荐指数和上证指数收益率之间的动态关系,得出如下研究结论:1、分析师推荐指数的上涨会导致股指收益率短期上涨。2、投资者情绪与分析师推荐之间存在双向格兰杰因果关系。3、投资者情绪指数的上涨会导致股指收益率的下降。本研究不仅有助于理解我国投资者情绪对股票收益的影响机制,而且也为监管层对市场的监管提供一定的决策依据。

(Duan Jiangjiao, Liu Hongzhong, Zeng Jianping.

Research on the Impact of Investor Sentiment Index, Analyst Recommendation Index and Stock Index Yield - Based on the Ranking of China Orient Bank.com.cn and Sina.com

[J]. Shanghai Finance, 2014(11): 60-64.)

URL      [本文引用: 3]      摘要

本文基于我国东方财富网股吧论坛和新浪网分析师个股评级数据,通过构建向量自回归VAR模型,检验了投资者情绪指数、分析师推荐指数和上证指数收益率之间的动态关系,得出如下研究结论:1、分析师推荐指数的上涨会导致股指收益率短期上涨。2、投资者情绪与分析师推荐之间存在双向格兰杰因果关系。3、投资者情绪指数的上涨会导致股指收益率的下降。本研究不仅有助于理解我国投资者情绪对股票收益的影响机制,而且也为监管层对市场的监管提供一定的决策依据。
[17] 王洪伟, 张对, 郑丽娟, .

网络股评对股市走势的影响:基于文本情感分析的方法

[J]. 情报学报, 2015, 34(11): 1190-1202.

[本文引用: 2]     

(Wang Hongwei, Zhang Dui, Zheng Lijuan, et al.

The Effect of Online Comments on Stock Trends by Sentiment Analysis

[J]. Journal of the China Society for Scientific and Technical Information, 2015, 34(11): 1190-1202.)

[本文引用: 2]     

[18] 黄润鹏, 左文明, 毕凌燕.

基于微博情绪信息的股票市场预测

[J]. 管理工程学报, 2015, 29(1): 47-52.

URL      [本文引用: 3]      摘要

行为金融理论的研究表明,股票投资者在进行投资决策时,容易受到自身的因素如情绪与心理因素的影响。以行为金融理论为依据,作出基本假设:微博情绪信息反映的社会整体情绪倾向能够影响并预测股票市场整体价格走势的变化。实证过程包括抓取新浪微博数据并进行预处理,生成情绪倾向时间序列,通过格兰杰因果关系检验上证指数时间序列与情绪倾向时间序列间的相关关系,建立支持向量机模型预测股票市场价格的变化来验证假设的正确性。实验结果显示加入微博情绪信息的预测模型能够获得更高的准确率,进而证明了本文所作假设的正确性。

(Huang Runpeng, Zuo Wenming, Bi Lingyan.

Predicting the Stock Market Based on Microblog Mood

[J]. Journal of Industrial Engineering, 2015, 29(1): 47-52.)

URL      [本文引用: 3]      摘要

行为金融理论的研究表明,股票投资者在进行投资决策时,容易受到自身的因素如情绪与心理因素的影响。以行为金融理论为依据,作出基本假设:微博情绪信息反映的社会整体情绪倾向能够影响并预测股票市场整体价格走势的变化。实证过程包括抓取新浪微博数据并进行预处理,生成情绪倾向时间序列,通过格兰杰因果关系检验上证指数时间序列与情绪倾向时间序列间的相关关系,建立支持向量机模型预测股票市场价格的变化来验证假设的正确性。实验结果显示加入微博情绪信息的预测模型能够获得更高的准确率,进而证明了本文所作假设的正确性。
[19] Kurov A.

Investor Sentiment and the Stock Market’s Reaction to Monetary Policy

[J]. Journal of Banking & Finance, 2010, 34(1): 139-149.

https://doi.org/10.1016/j.jbankfin.2009.07.010      URL      [本文引用: 1]      摘要

This paper shows that monetary policy decisions have a significant effect on investor sentiment. The effect of monetary news on sentiment depends on market conditions (bull versus bear market). We also find that monetary policy actions in bear market periods have a larger effect on stocks that are more sensitive to changes in investor sentiment and credit market conditions. Overall, the results show that investor sentiment plays a significant role in the effect of monetary policy on the stock market.
[20] Porshnev A, Redkin I, Shevchenko A.

Machine Learning in Prediction of Stock Market Indicators Based on Historical Data and Data from Twitter Sentiment Analysis

[C]// Proceedings of the 13th International Conference on Data Mining Workshops. IEEE, 2011: 440-444.

[本文引用: 2]     

[21] Kearney C, Liu S.

Textual Sentiment in Finance: A Survey of Methods and Models

[J]. International Review of Financial Analysis, 2014, 33(3): 171-185.

https://doi.org/10.1016/j.irfa.2014.02.006      URL      [本文引用: 2]      摘要

We survey the textual sentiment literature, comparing and contrasting the various information sources, content analysis methods, and empirical models that have been used to date. We summarize the important and influential findings about how textual sentiment impacts on individual, firm-level and market-level behavior and performance, and vice versa. We point to what is agreed and what remains controversial. Promising directions for future research are emerging from the availability of more accurate and efficient sentiment measures resulting from increasingly sophisticated textual content analysis coupled with more extensive field-specific dictionaries. This is enabling more wide-ranging studies that use increasingly sophisticated models to help us better understand behavioral finance patterns across individuals, institutions and markets.
[22] Oliveira N, Cortez P, Areal N.

Stock Market Sentiment Lexicon Acquisition Using Microblogging Data and Statistical Measures

[J]. Decision Support Systems, 2016, 85(C): 62-73.

https://doi.org/10.1016/j.dss.2016.02.013      URL      [本文引用: 1]      摘要

61Proposal of an automatic procedure for the creation of stock market lexicons.61The procedure uses diverse statistical measures on StockTwits labeled messages.61The new lexicons obtain better investor sentiment indicators than general lexicons.61The new Twitter sentiment indicators correlate with survey sentiment indicators.
[23] Renault T.

Intraday Online Investor Sentiment and Return Patterns in the U.S. Stock Market

[J]. Journal of Banking & Finance, 2017, 84(11): 25-40.

https://doi.org/10.1016/j.jbankfin.2017.07.002      URL      [本文引用: 1]      摘要

We implement a novel approach to derive investor sentiment from messages posted on social media before we explore the relation between online investor sentiment and intraday stock returns. Using an extensive dataset of messages posted on the microblogging platform StockTwits, we construct a lexicon of words used by online investors when they share opinions and ideas about the bullishness or the bearishness of the stock market. We demonstrate that a transparent and replicable approach significantly outperforms standard dictionary-based methods used in the literature while remaining competitive with more complex machine learning algorithms. Aggregating individual message sentiment at half-hour intervals, we provide empirical evidence that online investor sentiment helps forecast intraday stock index returns. After controlling for past market returns, we find that the first half-hour change in investor sentiment predicts the last half-hour S&P 500 index ETF return. Examining users鈥 self-reported investment approach, holding period and experience level, we find that the intraday sentiment effect is driven by the shift in the sentiment of novice traders. Overall, our results provide direct empirical evidence of sentiment-driven noise trading at the intraday level.
[24] 杨晓兰, 沈翰彬, 祝宇.

本地偏好、投资者情绪与股票收益率:来自网络论坛的经验证据

[J]. 金融研究, 2016(12): 143-158.

URL      [本文引用: 1]      摘要

本文以投资者在东方财富网股吧针对创业板上市公司发表的90多万条帖子为研究对象,通过IP地址识别,构建本地关注指标;并利用计算机文本挖掘技术,提取网络发帖所体现的情绪倾向,构建投资者情绪指标。实证结果显示,本地关注对股票收益率的影响取决于投资者情绪,当投资者持积极情绪时,本地关注对股票收益率有显著的正向影响;当投资者持消极情绪时,该影响显著为负。在积极情绪和消极情绪下本地关注对股票交易量都有显著正向影响,但积极情绪下的影响程度比消极情绪下更大。此外,本地关注与投资者情绪的交叉效应在上市公司样本数量较多的北京、广东、江苏、上海、浙江这五个区域都存在,并与整体样本的特征基本一致,但在样本数量较少的其他区域并不完全一致。

(Yang Xiaolan, Shen Hanbin, Zhu Yu.

The Effect of Local Bias in Investor Attention and Investor Sentiment on Stock Markets: Evidence from Online Forum

[J]. Journal of Financial Research, 2016(12): 143-158.)

URL      [本文引用: 1]      摘要

本文以投资者在东方财富网股吧针对创业板上市公司发表的90多万条帖子为研究对象,通过IP地址识别,构建本地关注指标;并利用计算机文本挖掘技术,提取网络发帖所体现的情绪倾向,构建投资者情绪指标。实证结果显示,本地关注对股票收益率的影响取决于投资者情绪,当投资者持积极情绪时,本地关注对股票收益率有显著的正向影响;当投资者持消极情绪时,该影响显著为负。在积极情绪和消极情绪下本地关注对股票交易量都有显著正向影响,但积极情绪下的影响程度比消极情绪下更大。此外,本地关注与投资者情绪的交叉效应在上市公司样本数量较多的北京、广东、江苏、上海、浙江这五个区域都存在,并与整体样本的特征基本一致,但在样本数量较少的其他区域并不完全一致。
[25] Bollen J, Mao H, Zeng X.

Twitter Mood Predicts the Stock Market

[J]. Journal of Computational Science, 2011, 2(1):1-8.

https://doi.org/10.1016/j.jocs.2010.12.007      URL      [本文引用: 1]      摘要

Behavioral economics tells us that emotions can profoundly affect individual behavior and decision-making. Does this also apply to societies at large, i.e. can societies experience mood states that affect their collective decision making? By extension is the public mood correlated or even predictive of economic indicators? Here we investigate whether measurements of collective mood states derived from large-scale Twitter feeds are correlated to the value of the Dow Jones Industrial Average (DJIA) over time. We analyze the text content of daily Twitter feeds by two mood tracking tools, namely OpinionFinder that measures positive vs. negative mood and Google-Profile of Mood States (GPOMS) that measures mood in terms of 6 dimensions (Calm, Alert, Sure, Vital, Kind, and Happy). We cross-validate the resulting mood time series by comparing their ability to detect the public's response to the presidential election and Thanksgiving day in 2008. A Granger causality analysis and a Self-Organizing Fuzzy Neural Network are then used to investigate the hypothesis that public mood states, as measured by the OpinionFinder and GPOMS mood time series, are predictive of changes in DJIA closing values. Our results indicate that the accuracy of DJIA predictions can be significantly improved by the inclusion of specific public mood dimensions but not others. We find an accuracy of 86.7% in predicting the daily up and down changes in the closing values of the DJIA and a reduction of the Mean Average Percentage Error (MAPE) by more than 6%.Research highlights? Public mood states along 7 different dimensions of mood are measured from the text content of large-scale Twitter feeds. ? Daily variations in public mood states show statistically significant correlation to daily changes in Dow Jones Industrial Average closing values. ? Certain dimensions of public mood states, in particular Calm, increase the accuracy of a Self Organizing Fuzzy Neural Network model in predicting up and down changes in DJIA closing values to 87.6%.
[26] Cheng Y H, Ho H Y.

Social Influence’s Impact on Reader Perceptions of Online Reviews

[J]. Journal of Business Research, 2015, 68(4): 883-887.

https://doi.org/10.1016/j.jbusres.2014.11.046      URL      [本文引用: 1]      摘要

A large number of online customer reviews greatly influences consumer purchasing decisions. Whether positive or negative, consumers regard online customer reviews as providing useful information. Based on the elaboration likelihood model (ELM), this study focuses on the factors of the central and peripheral route in online customer reviews that make readers feel they are trustworthy and helpful. In addition, the researchers are interested in the impact of social factors in the reviews on consumers. Using content analysis, the study analyzes 983 customer reviews from restaurant review websites. Results show that the larger reviewer's number of followers, the higher level of expertise of the reviewer, the larger image count and word count also make readers feel the review is more practical and useful. Further, the influence of the peripheral route, the social factors, on readers is higher than that of central route factors.
[27] Piñeiro-Chousa J R, López-Cabarcos M Á, Pérez-Pico A M.

Examining the Influence of Stock Market Variables on Microblogging Sentiment

[J]. Journal of Business Research, 2015, 69(6): 2087-2092.

https://doi.org/10.1016/j.jbusres.2015.12.013      URL      [本文引用: 1]      摘要

This research investigates different combinations of causal conditions that may relate to microblogging sentiment. The study considers financial variables, such as VIX, Tobin's Q, capitalization, or P/E Ratio, and variables related to social media activity, such as number of twits, number of followers or the experience of the users. Using a fuzzy-set qualitative comparative analysis, this research analyzes the sentiment of stock-related microblogging messages of S&P500 Index posted between October 2009 and October 2014. The model where the message sentiment increases finds three causal recipes and all of them contain user experience and number of followers: (1) the configuration within user experience, number of followers, and Tobin's Q; (2) the configuration within user experience, number of followers, and lower P/E Ratio, lower capitalization, and lower Tobin's Q; (3) and the configuration within user experience, number of followers, P/E Ratio, and Tobin's Q. The study discusses the results.
[28] Oliveira N, Cortez P, Areal N.

The Impact of Microblogging Data for Stock Market Prediction: Using Twitter to Predict Returns, Volatility, Trading Volume and Survey Sentiment Indices

[J]. Expert Systems with Applications, 2017, 73: 125-144.

https://doi.org/10.1016/j.eswa.2016.12.036      URL      [本文引用: 3]      摘要

In this paper, we propose a robust methodology to assess the value of microblogging data to forecast stock market variables: returns, volatility and trading volume of diverse indices and portfolios. The methodology uses sentiment and attention indicators extracted from microblogs (a large Twitter dataset is adopted) and survey indices (AAII and II, USMC and Sentix), diverse forms to daily aggregate these indicators, usage of a Kalman Filter to merge microblog and survey sources, a realistic rolling windows evaluation, several Machine Learning methods and the Diebold-Mariano test to validate if the sentiment and attention based predictions are valuable when compared with an autoregressive baseline. We found that Twitter sentiment and posting volume were relevant for the forecasting of returns of S&P 500 index, portfolios of lower market capitalization and some industries. Additionally, KF sentiment was informative for the forecasting of returns. Moreover, Twitter and KF sentiment indicators were useful for the prediction of some survey sentiment indicators. These results confirm the usefulness of microblogging data for financial expert systems, allowing to predict stock market behavior and providing a valuable alternative for existing survey measures with advantages (e.g., fast and cheap creation, daily frequency).
[29] Cortez P, Embrechts M J.

Using Sensitivity Analysis and Visualization Techniques to Open Black Box Data Mining Models

[J]. Information Sciences, 2013, 225: 1-17.

https://doi.org/10.1016/j.ins.2012.10.039      URL      [本文引用: 1]      摘要

In this paper, we propose a new visualization approach based on a Sensitivity Analysis (SA) to extract human understandable knowledge from supervised learning black box data mining models, such as Neural Networks (NNs), Support Vector Machines (SVMs) and ensembles, including Random Forests (RFs). Five SA methods (three of which are purely new) and four measures of input importance (one novel) are presented. Also, the SA approach is adapted to handle discrete variables and to aggregate multiple sensitivity responses. Moreover, several visualizations for the SA results are introduced, such as input pair importance color matrix and variable effect characteristic surface. A wide range of experiments was performed in order to test the SA methods and measures by fitting four well-known models (NN, SVM, RF and decision trees) to synthetic datasets (five regression and five classification tasks). In addition, the visualization capabilities of the SA are demonstrated using four real-world datasets (e.g., bank direct marketing and white wine quality).
[30] 阳爱民, 林江豪, 周咏梅.

中文文本情感词典构建方法

[J]. 计算机科学与探索, 2013, 7(11): 1033-1039.

https://doi.org/10.3778/j.issn.1673-9418.1305008      URL      Magsci      [本文引用: 1]      摘要

互联网海量文本的情感分析是当前的一个研究热点。介绍了一种中文文本情感词典构建方法,该方法选用若干个情感种子词,利用搜索引擎返回的共现数,通过改进的PMI(pointwise mutual information)算法计算情感词的情感权值。将构建的情感词典应用到文本情感分类实验中,在不同的语料环境下,对比基于情感词典和朴素贝叶斯分类器下的文本情感分类效果,实验结果表明,构建的情感词典,可有效用于情感特征选择和直接用于情感分类,并且分类性能稳定。

(Yang Aimin, Lin Jianghao, Zhou Yongmei.

Method on Building Chinese Text Sentiment Lexicon

[J]. Journal of Frontiers of Computer Science and Technology, 2013, 7(11): 1033-1039.)

https://doi.org/10.3778/j.issn.1673-9418.1305008      URL      Magsci      [本文引用: 1]      摘要

互联网海量文本的情感分析是当前的一个研究热点。介绍了一种中文文本情感词典构建方法,该方法选用若干个情感种子词,利用搜索引擎返回的共现数,通过改进的PMI(pointwise mutual information)算法计算情感词的情感权值。将构建的情感词典应用到文本情感分类实验中,在不同的语料环境下,对比基于情感词典和朴素贝叶斯分类器下的文本情感分类效果,实验结果表明,构建的情感词典,可有效用于情感特征选择和直接用于情感分类,并且分类性能稳定。
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn

/