Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (7): 18-27     https://doi.org/10.11925/infotech.2096-3467.2020.0323
  专题 本期目录 | 过刊浏览 | 高级检索 |
融合机器学习算法和多因素的禽肉交易量预测方法研究 *
陈东1,王建冬1(),李慧颖1,蔡思航1,黄倩倩1,易成岐1,曹攀2,3
1国家信息中心大数据发展部 北京 100045
2重庆西部大数据前沿应用研究院 重庆 401100
3北京一点萤科技有限责任公司 北京 100073
Forecasting Poultry Turnovers with Machine Learning and Multiple Factors
Chen Dong1,Wang Jiandong1(),Li Huiying1,Cai Sihang1,Huang Qianqian1,Yi Chengqi1,Cao Pan2,3
1Big Data Development Department, State Information Center, Beijing 100045, China
2Chongqing Western Institute of Big Data Advanced Application, Chongqing 401100, China
3Beijing Yidianying Technology Co., Ltd, Beijing 100073, China
全文: PDF (1077 KB)   HTML ( 17
输出: BibTeX | EndNote (RIS)      
摘要 

目的】为强化畜禽业生产决策和政策引导的科学性、前瞻性,有效预测多变量影响下的禽肉市场变化趋势。【方法】以白条鸡为例,综合考虑多重因素对白条鸡交易量的影响,提取50个可能与白条鸡交易量预测有关的变量作为数据特征,对比当前主流的机器学习算法,探索性地提出一种基于机器学习的白条鸡日均交易量预测方法,对禽肉产品供需能力进行量化预测。【结果】ElasticNet、RandomForest和GBRT三个算法预测效果均较为稳定,预测效果从优至劣依次为:GBRT、RandomForest、ElasticNet(MAE分别为:25.30、26.67、28.21);随着时间积累和训练样本数量增加,白条鸡日均交易量预测效果逐步提高;三种算法均具备提前三期的稳定预测效果。【局限】 本文采用的数据特征种类和历史数据量较少,且对行业的专业认识较浅。【结论】本研究对于量化评估、预测重大突发事件对产业产值的影响具有借鉴意义,有望为政府部门预判产业危机、制定产业调控政策提供理论数据支撑。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
陈东
王建冬
李慧颖
蔡思航
黄倩倩
易成岐
曹攀
关键词 预测方法机器学习白条鸡    
Abstract

[Objective] This paper tries to forecast the trends of poultry market influenced by multiple factors, aiming to strengthen the decision makings and policies for livestock and poultry production.[Methods] We chose 50 variables to construct machine learning models for predicting daily turnovers of dressed chicken. Our models were created based on popular machine learning algorithms.[Results] We found that GBRT, Random Forest and Elastic Net yielded stable prediction results and their MAEs were 25.30, 26.67, and 28.21 respectively. The prediction was improved with more large training sets and longer training time. We could forecast the turnovers of three periods in advance.[Limitations] The training sets needs to include more features and historical data.[Conclusions] The proposed models could quantatively assess and forecast the impacts of emergencies on industrial output, which imrpoves governmental policy making.

Key wordsForecasting    Machine Learning    Dressed Chicken
收稿日期: 2020-04-16      出版日期: 2020-07-25
ZTFLH:  TP393  
基金资助:*本文系国家社会科学基金青年项目“使用大数据方法开展社会政策评估的探索性研究”(18CSH018);山东省政府采购项目“山东省数字政府创新能力提升建设”的研究成果之一(SDGP370000201901000173)
通讯作者: 王建冬     E-mail: wangjd@sic.gov.cn
引用本文:   
陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
Chen Dong,Wang Jiandong,Li Huiying,Cai Sihang,Huang Qianqian,Yi Chengqi,Cao Pan. Forecasting Poultry Turnovers with Machine Learning and Multiple Factors. Data Analysis and Knowledge Discovery, 2020, 4(7): 18-27.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2020.0323      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I7/18
Fig.1  总体思路
特征类别 特征序号 特征名称 特征描述
市场主体特征 F1 BREEDING_ADD_YOY 鸡鸭等家禽养殖企业和个体工商户新增数量同比值
F2 BREEDING_CANCEL_REVOKE_YOY 鸡鸭等家禽养殖企业和个体工商户注销及吊销数量同比值
F3 BREEDING_RECRUIT_YOY 鸡鸭等家禽养殖企业和个体工商户招聘岗位数量同比值
F4 FEED_ADD_YOY 鸡鸭等家禽饲料企业和个体工商户新增数量同比值
F5 FEED_CANCEL_REVOKE_YOY 鸡鸭等家禽饲料企业和个体工商户注销及吊销数量同比值
F6 FEED_RECRUIT_YOY 鸡鸭等家禽饲料企业和个体工商户招聘岗位数量同比值
F7 SLAUGHTER_ADD_YOY 鸡鸭等家禽屠宰加工企业和个体工商户新增数量同比值
F8 SLAUGHTER_CANCEL_REVOKE_YOY 鸡鸭等家禽屠宰加工企业和个体工商户注销及吊销数量同比值
F9 SLAUGHTER_RECRUIT_YOY 鸡鸭等家禽屠宰加工企业和个体工商户招聘岗位数量同比值
F10 CHICK_ADD_YOY 鸡苗种鸡企业和个体工商户新增数量同比值
F11 CHICK_CANCEL_REVOKE_YOY 鸡苗种鸡企业和个体工商户注销及吊销数量同比值
F12 CHICK_RECRUIT_YOY 鸡苗种鸡企业和个体工商户招聘岗位数量同比值
F13 MEDICINE_ADD_YOY 生产禽药企业和个体工商户新增数量同比值
F14 MEDICINE_CANCEL_REVOKE_YOY 生产禽药企业和个体工商户注销及吊销数量同比值
F15 MEDICINE_RECRUIT_YOY 生产禽药企业和个体工商户招聘岗位数量同比值
F16 BREEDING_ADD_QOQ 鸡鸭等家禽养殖企业和个体工商户新增数量环比值
F17 BREEDING_CANCEL_REVOKE_QOQ 鸡鸭等家禽养殖企业和个体工商户注销及吊销数量环比值
F18 BREEDING_RECRUIT_QOQ 鸡鸭等家禽养殖企业和个体工商户招聘岗位数量环比值
F19 FEED_ADD_QOQ 鸡鸭等家禽饲料企业和个体工商户新增数量环比值
F20 FEED_CANCEL_REVOKE_QOQ 鸡鸭等家禽饲料企业和个体工商户注销及吊销数量环比值
F21 FEED_RECRUIT_QOQ 鸡鸭等家禽饲料企业和个体工商户招聘岗位数量环比值
F22 SLAUGHTER_ADD_QOQ 鸡鸭等家禽屠宰加工企业和个体工商户新增数量环比值
F23 SLAUGHTER_CANCEL_REVOKE_QOQ 鸡鸭等家禽屠宰加工企业和个体工商户注销及吊销数量环比值
F24 SLAUGHTER_RECRUIT_QOQ 鸡鸭等家禽屠宰加工企业和个体工商户招聘岗位数量环比值
F25 CHICK_ADD_QOQ 鸡苗种鸡企业和个体工商户新增数量环比值
F26 CHICK_CANCEL_REVOKE_QOQ 鸡苗种鸡企业和个体工商户注销及吊销数量环比值
F27 CHICK_RECRUIT_QOQ 鸡苗种鸡企业和个体工商户招聘岗位数量环比值
F28 MEDICINE_ADD_QOQ 生产禽药企业和个体工商户新增数量环比值
F29 MEDICINE_CANCEL_REVOKE_QOQ 生产禽药企业和个体工商户注销及吊销数量环比值
F30 MEDICINE_RECRUIT_QOQ 生产禽药企业和个体工商户招聘岗位数量环比值
舆情信息特征 F31 CHICKEN_NUMS 网民提及鸡肉等相关舆情信息数量
F32 CHICKEN_EMOTION 网民提及鸡肉等相关舆情信息情感值
搜索意愿特征 F33 SEARCH_SPRING_FESTIVAL “过年”一词百度指数结果
F34 SEARCH_CHICKEN “鸡肉”一词百度指数结果
F35 SEARCH_CHICKEN_PRICE “鸡肉价格”一词百度指数结果
F36 SEARCH_FEED “饲料”一词百度指数结果
F37 SEARCH_BLESS “扫福”一词百度指数结果
F38 SEARCH_ONLINE_OFFICE “在线办公”一词百度指数结果
F39 SEARCH_RETURN “返乡”一词百度指数结果
F40 SEARCH_NECESSITIES “年货”一词百度指数结果
F41 SEARCH_GREETINGS “拜年”一词百度指数结果
F42 SEARCH_DISEASE “疾病”一词百度指数结果
F43 SEARCH_VEGETABLES “买菜”一词百度指数结果
F44 SEARCH_EPIDEMIC “疫情”一词百度指数结果
F45 SEARCH_TICKET “抢票”一词百度指数结果
F46 SEARCH_CHICK “鸡苗”一词百度指数结果
统计数据特征 F47 PORK_NUMS 猪肉日均交易量(统计口径)
F48 EGG_NUMS 鸡蛋日均交易量(统计口径)
F49 BEEF_NUMS 牛肉日均交易量(统计口径)
F50 MUTTON_NUMS 羊肉日均交易量(统计口径)
Table 1  白条鸡日均交易量预测特征(逐周)
Fig.2  随机抽样数据集对预测效果稳定性的对比结果
Fig.3  不同算法的预测效果对比分析
时间切片 训练集时间跨度 测试集时间跨度
1 第1~44周 第45周
2 第1~45周 第46周
3 第1~46周 第47周
4 第1~47周 第48周
5 第1~48周 第49周
6 第1~49周 第50周
7 第1~50周 第51周
8 第1~51周 第52周
Table 2  迭代滚动预测实验数据集划分方式
Fig.4  不同算法的预测效果对比分析
时间切片 训练集时间跨度 测试集时间跨度
1 第1~44周 第52周
2 第1~45周 第52周
3 第1~46周 第52周
4 第1~47周 第52周
5 第1~48周 第52周
6 第1~49周 第52周
7 第1~50周 第52周
8 第1~51周 第52周
Table 3  预测效果与所需训练样本数量分析实验数据集划分方式
Fig.5  预测所需训练样本和提前期数分析
[1] 国家统计局. 2020年1月份居民消费价格同比上涨5.4%[R/OL]. [ 2020- 03- 12]. http://www.stats.gov.cn/tjsj/zxfb/202002/t20200210_1725569.html.
[1] ( National Bureau of Statistics of China. Consumer Prices for January 2020 [R/OL]. [ 2020- 03- 12]. http://www.stats.gov.cn/tjsj/zxfb/202002/t20200210_1725569.html.)
[2] 潘迪特, 李昌琪. 时间序列及系统分析与应用[M]. 李昌琪, 荣国俊译. 北京: 机械工业出版社, 1988.
[2] ( Pandit S M, Li Changqi. Time Series and System Analysis with Applications[M]. Translated by Li Changqi, Rong Guojun. Beijing: China Machine Press, 1988.)
[3] 李一智. 经济预测技术[M]. 北京: 清华大学出版社, 1991.
[3] ( Li Yizhi. Economic Forecasting Techniques[M]. Beijing: Tsinghua University Press, 1991.)
[4] 邓聚龙. 灰色系统(社会·经济)[M]. 北京: 国防工业出版社, 1985.
[4] ( Deng Julong Grey System (Sociology·Economics)[M]. Beijing: National Defense Industry Press, 1985.)
[5] 李志强, 白文斌, 张亚丽, 等. 基于ARIMA模型的内蒙古羊产业分析与预测[J]. 山西农业科学, 2011,39(7):729-732, 743.
[5] ( Li Zhiqiang, Bai Wenbin, Zhang Yali, et al. Analysis and Forecast of Sheep Industry Based on the ARIMA Model in Inner Mongolia[J]. Journal of Shanxi Agricultural Sciences, 2011,39(7):729-732, 743.)
[6] 王晓梅. 灰色理论GM(1,1)模型在我国畜产品产量预测中的应用[J]. 安徽农业科学, 2007,35(1):7-8.
[6] ( Wang Xiaomei. The Application of Grey Theory GM(1,1) Model in the Prediction of Animal Product Yield in China[J]. Journal of Anhui Agricultural Sciences, 2007,35(1):7-8.)
[7] 林绍森, 唐永金. 三种模型对我国粮食产量预测效果的比较[J]. 统计与决策, 2007(4):39-40.
[7] ( Lin Shaosen, Tang Yongjin. Comparison of Three Models on Forecasting Grain Yields in China[J]. Statistics & Decision, 2007(4):39-40.)
[8] 刘峰, 王儒敬, 李传席. ARIMA模型在农产品价格预测中的应用[J]. 计算机工程与应用, 2009,45(25):238-239, 248.
doi: 10.3778/j.issn.1002-8331.2009.25.073
[8] ( Liu Feng, Wang Rujing, Li Chuanxi. Application of ARIMA Model in Forecasting Agricultural Product Price[J]. Computer Engineering and Applications, 2009,45(25):238-239, 248.)
doi: 10.3778/j.issn.1002-8331.2009.25.073
[9] Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction[M]. New York: Springer Science & Business Media, 2009.
[10] Zou H, Hastie T. Regularization and Variable Selection via the Elastic Net[J]. Journal of the Royal Statistical Society: Series B(Statistical Methodology), 2005,67(2):301-320.
[11] Breiman L, Friedman J, Olshen R, et al. Classification and Regression Trees[M]. CRC Press, 1984.
[12] Friedman J H. Greedy Function Approximation: A Gradient Boosting Machine[J]. Annals of Statistics, 2001,29(5):1189-1232.
[13] 谢坤, 容钰添, 胡奉平, 等. 基于数据集成的随机森林算法[J/OL]. 计算机工程, [2020-03-12]. https://doi.org/10.19678/j.issn. 1000-3428.0055891.
[13] ( Xie Kun, Rong Yutian, Hu Fengping, et al. Random Forest Based on Data Ensembling[J/OL]. Computer Engineering, [2020-03-12]. https://doi.org/10.19678/j.issn. 1000-3428.0055891.)
[14] 林霞, 刘宗尚, 高宇, 等. 基于机器学习的产油量主控因素分析[J]. 信息系统工程, 2019(12):94-97, 99.
[14] ( Lin Xia, Liu Zongshang, Gao Yu, et al. Analysis of the Main Control Factors of Oil Production Based on Machine Learning[J]. China CIO News, 2019(12):94-97, 99.)
[15] Ayaru L, Ypsilantis P P, Nanapragasam A, et al. Prediction of Outcome in Acute Lower Gastrointestinal Bleeding Using Gradient Boosting[J]. PLoS One, 2015,10(7):e0132485.
doi: 10.1371/journal.pone.0132485 pmid: 26172121
[16] 张棪, 曹健. 面向大数据分析的决策树算法[J]. 计算机科学, 2016,43(S1):374-379, 383.
[16] ( Zhang Yan, Cao Jian. Decision Tree Algorithms for Big Data Analysis[J]. Computer Science, 2016,43(S1):374-379, 383.)
[17] 董莉, 彭凯越, 唐晓彬. 大数据背景下的CPI实时预测研究[J]. 调研世界, 2017(8):51-54.
[17] ( Dong Li, Peng Kaiyue, Tang Xiaobin. Research on Real-Time CPI Prediction Under the Background of Big Bata[J]. The World of Survey and Research, 2017(8):51-54.)
[18] 康传利, 顾峻峰, 刘兆威. 梯度提升回归树的旅游流量预测模型[J]. 数学的实践与认识, 2019,49(15):251-261.
[18] ( Kang Chuanli, Gu Junfeng, Liu Zhaowei. Analysis of Tourist Volume Forecasting Model Based on Gradient Boost Regression Tree[J]. Mathematics in Practice and Theory, 2019,49(15):251-261.)
[19] 巩晓文, 凤思苑, 崔壮, 等. 基于SVGD分类预测的梯度提升机与随机森林的性能比较[J]. 中国卫生统计, 2019,36(5):674-677.
[19] ( Gong Xiaowen, Feng Siyuan, Cui Zhuang, et al. Performance Comparison Between Gradient Boosting Machine and Random Forest Based on SVGD Classification Prediction[J]. Chinese Journal of Health Statistics, 2019,36(5):674-677.)
[20] 韩忠明, 原碧鸿, 陈炎, 等. 一个有效的基于GBRT的早期电影票房预测模型[J]. 计算机应用研究, 2018,35(2):410-416.
[20] ( Han Zhongming, Yuan Bihong, Chen Yan, et al. Effective Box-Office Revenue Prediction Model Based on GBRT[J]. Application Research of Computers, 2018,35(2):410-416.)
[21] Maric I, Ivek I. Self-organizing Polynomial Networks for Time-constrained Applications[J]. IEEE Transactions on Industrial Electronics, 2011,58(5):2019-2029.
[22] Singh B, Sihag P, Singh K. Modelling of Impact of Water Quality on Infiltration Rate of Soil by Random Forest Regression[J]. Modeling Earth Systems and Environment, 2017,3(3):999-1004.
[1] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[2] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[3] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[4] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[5] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[6] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[7] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[8] 徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[9] 李静,潘舒笑,李雪岩,贾立静,赵宇卓. 基于多目标量子优化分类器的急诊危重患者关键指标筛选 *[J]. 数据分析与知识发现, 2019, 3(12): 101-112.
[10] 沈洋,庄伟超,吴清华,钱玲飞. 基于区间模糊VIKOR的监犯特征风险评估研究 *[J]. 数据分析与知识发现, 2019, 3(11): 70-78.
[11] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[12] 刘丽娜,齐佳音,张镇平,曾丹. 品牌对商品在线销量的影响*——基于海量商品评论的在线声誉和品牌知名度的调节作用研究[J]. 数据分析与知识发现, 2018, 2(9): 10-21.
[13] 贾隆嘉,张邦佐. 高校网络舆情安全中主题分类方法研究*——以新浪微博数据为例[J]. 数据分析与知识发现, 2018, 2(7): 55-62.
[14] 陆伟,罗梦奇,丁恒,李信. 深度学习图像标注与用户标注比较研究*[J]. 数据分析与知识发现, 2018, 2(5): 1-10.
[15] 王丽,邹丽雪,刘细文. 基于LDA主题模型的文献关联分析及可视化研究[J]. 数据分析与知识发现, 2018, 2(3): 98-106.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn