数据分析与知识发现  2021, Vol. 5 Issue (7): 126-138
1北京外国语大学信息科学与技术学院 北京 100089
2国家计算机网络应急技术处理协调中心 北京 100029
Predicting Stock Trends with CNN-BiLSTM Based Multi-Feature Integration Model
Xu Yuemei1(),Wang Zihou2,Wu Zixin1
1School of Information Science and Technology, Beijing Foreign Studies of University, Beijing 100089, China
2National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China
【目的】 在传统基于股市数值分析的基础上,研究新闻对股票市场的影响,提高股票走势预测的准确率。【方法】 引入卷积神经网络和双向长短时记忆模型挖掘财经新闻中的新闻事件类型和新闻情感倾向,提出一种深度融合股市财务数据、新闻事件特征及新闻情感特征的股票预测模型。为了验证所提模型对不同行业个股走势的可行性,分别选取家用电器行业和通信行业的两只股票作为实验对象。【结果】 引入新闻事件和情感特征后,模型的预测准确率进一步提升,家用电器行业准确率提高了11.6%,通信行业准确率提高了25.6%。【局限】 模型未考虑不同预测周期对股票预测的影响。【结论】 引入新闻事件类型和情感倾向能够提高股票走势预测的性能。本文评估影响股票走势的因素,并对影响股票走势预测的特征重要性进行排序。

关键词 深度学习特征融合情感倾向股票走势    

[Objective] Based on the traditional financial data analysis, this paper explores the impacts of online news on stock market, aiming to improve the accuracy of predicting stock trends. [Methods] First, we used the Convolutional Neural Network (CNN) and Bi-directional Long Short-Term Memory (Bi-LSTM) to extract news events and their sentiment orientations. Then, we proposed a prediction model for stock trends, which combines the stock numerical data and the news event sentiments. Finally, we examined the feasibility of this model with two individual stocks (GREE Electric Appliance in the household appliance industry and ZTE in the electronic appliance industry). [Results] The prediction accuracy of our model was 11.6% and 25.6% higher than the exiting algorithms. [Limitations] We did not evaluate the impacts of prediction period on the performance of the proposed model. [Conclusions] The news events and their sentiment orientations could lead to the fluctuation of stock prices.

Key wordsDeep Learning    Feature Combination    Sentiment Analysis    Stock Trends
收稿日期: 2020-09-15      出版日期: 2021-04-15
ZTFLH:  TP393  
通讯作者: 徐月梅,ORCID:0000-0002-0223-7146     E-mail:
徐月梅, 王子厚, 吴子歆. 一种基于CNN-BiLSTM多特征融合的股票走势预测模型*[J]. 数据分析与知识发现, 2021, 5(7): 126-138.
Xu Yuemei, Wang Zihou, Wu Zixin. Predicting Stock Trends with CNN-BiLSTM Based Multi-Feature Integration Model. Data Analysis and Knowledge Discovery, 2021, 5(7): 126-138.
Fig.1  融合新闻事件和情感特征的股票走势预测流程
D 1 D 2 D j D p
T 1 $\bar{d}_{11}$ $\bar{d}_{12}$ $\bar{d}_{1j}$ $\bar{d}_{1p}$
T i $\bar{d}_{i1}$ $\bar{d}_{i2}$ $\bar{d}_{ij}$ $\bar{d}_{ip}$
T n $\bar{d}_{n1}$ $\bar{d}_{n2}$ $\bar{d}_{nj}$ $\bar{d}_{np}$
Table 1  股票财务特征矩阵
事件类别 事件名称
交易类 停牌 复牌 资金流入 资金流出 大宗交易 股价倒挂 创新高
股权类 挂牌 借壳 举牌 收购并购 资产重组 资产冻结 股权转让
投融资类 投资 投建 中标 发行债券 发行股票 可转债 募资 质押 分红
公司事务类 注册资本变更 快速发展 战略合作 拓展业务 高管减持或离职
外部事件类 登上龙虎榜 交易所处罚 评级利好 评级下调 政策利好
Table 2  部分新闻事件类型(部分)
S 1 S 2 S j S q
T 1 s 11 s 12 s 1 j s 1 q
T i s i 1 s i 2 s ij s iq
T n s n 1 s n 2 s nj s nq
Table 3  新闻事件特征矩阵
Fig.2  基于Bi-LSTM的新闻情感分析模型
Fig.3  股票预测模型采样周期示意图
词向量维度 300 300
卷积核个数 96 Null
卷积核大小 3,4,5 Null
Dropout 0.5 0.5
Batch_size 128 128
迭代次数 10 20
标题截取长度 Null 15
单层LSTM神经元个数 Null [256,256]
Table 4  模型参数设置

SVM Maxent CNN
训练集 90.8% 72.0% 93.0%
测试集 85.2% 69.4% 87.7%
Table 5  新闻事件分类精确率对比
新闻事件 精确率 召回率 F 1 新闻事件 精确率 召回率 F 1
登上龙虎榜 1.00 1.00 1.00 业绩下降 0.64 0.58 0.61
停牌 0.98 1.00 0.99 政策利好 0.81 0.65 0.72
工商变更 1.00 1.00 1.00 资本变更 1.00 0.22 0.36
中标 1.00 1.00 1.00 聘请高管 0.50 0.40 0.44
可转债 0.97 0.97 0.97 业绩增长 0.68 0.73 0.71
质押 1.00 1.00 1.00 预计下滑 0.67 0.61 0.64
交易所问询 0.94 1.00 0.97 利差消息 0.42 0.47 0.44
退市 1.00 1.00 1.00 利好消息 0.46 0.65 0.54
Table 6  新闻事件分类的性能统计表
数据集 SVM精确率 Maxent精确率 Bi-LSTM精确率
训练集 86.6% 82.8% 99.0%
测试集 81.1% 76.1% 91.0%
Table 7  新闻情感分类精确率对比
股票 采用财务特征的LSTM 引入新闻事件的LSTM 新闻事件/情感融合的
格力电器 0.699 8 0.754 5 0.625 7 0.781 2
中兴通讯 0.646 7 0.785 1 0.654 5 0.812 7
Table 8  不同模型的股票走势预测精确率对比
Fig.4  格力电器(000651.SZ)走势预测示例
Fig.5  中兴通讯(000063.SZ)走势预测示例
Fig.6  GBDT对不同特征的重要性排序结果
Fig.7  涨跌幅阈值对股票走势预测模型的影响
