Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (2/3): 192-199     https://doi.org/10.11925/infotech.2096-3467.2019.0522
  专辑 本期目录 | 过刊浏览 | 高级检索 |
考虑航线特征的机票价格预测方法研究*
钟丽珍1,马敏书1(),周长锋2
1北京交通大学交通运输学院 北京 100044
2中国国家铁路集团有限公司客运部 北京 100033
Forecasting Airfare Based on Route Characteristics
Zhong Lizhen1,Ma Minshu1(),Zhou Changfeng2
1School of Traffic and Transportation, Beijing Jiaotong University, Beijing 100044, China
2Passenger Transport Department, China State Railway Group Co., Ltd., Beijing 100033, China
全文: PDF (783 KB)   HTML ( 9
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 对日均航班数较少且历史数据不完整甚至缺失的航线进行票价预测,辅助旅客进行购票时间决策。【方法】 借助多条航线的历史数据解决这类航线的票价预测问题。基于前人研究以及数据的可获得性,提取一批可能与机票价格波动相关的特征变量;对这些变量进行分类并利用控制变量的思想,逐步找出最合适的机票价格预测模型。【结果】 模型中包含与年度相关的变量(航程变量、航线的社会经济特征)时,其预测误差小于不包含的情况。【局限】 没有考虑中转航班等因素;没有研究居民可支配收入等特征变量;没有引入更多的预测算法和模型评价指标。【结论】 年度相关特征、两地间航程以及航线的社会经济特征均与机票价格波动相关。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
钟丽珍
马敏书
周长锋
关键词 机票价格预测支持向量回归购票时间决策航线特征    
Abstract

[Objective] This paper predicts airfare on routes with fewer daily average flights and incomplete or even no historical data, aiming to help passengers choose better ticketing time.[Methods] We used historical data of multiple routes to predict airfares of the targets. Based on previous research and data, we extracted characteristic variables related to airfare fluctuations. We also classified these variables to establish the airfare forecasting model.[Results] When the model contains variables like the distance and the socio-economic characteristics of the route, the prediction error was significantly reduced.[Limitations] We did not include transit flights and local residents’ income data in our study. More research is needed to evaluate the performance of predicting algorithms.[Conclusions] The characteristics related to the year, the distance between the two places and the socio-economic factors of the routes are the main reasons for airfare fluctuations.

Key wordsAirfare Prediction    Support Vector Regression    Ticket Purchase Time Decision    Route Characteristic
收稿日期: 2019-05-16      出版日期: 2020-04-26
ZTFLH:  TP393  
基金资助:*本文系国家重点研发计划项目“铁路客货运效益与服务水平提高技术”(2018YFB1201402);中国铁路总公司科技研究开发计划项目“面向铁路客运经营与服务的大数据关键技术研究”的研究成果之一(2017X004-C)
通讯作者: 马敏书     E-mail: mshma@bjtu.edu.cn
引用本文:   
钟丽珍,马敏书,周长锋. 考虑航线特征的机票价格预测方法研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 192-199.
Zhong Lizhen,Ma Minshu,Zhou Changfeng. Forecasting Airfare Based on Route Characteristics. Data Analysis and Knowledge Discovery, 2020, 4(2/3): 192-199.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0522      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I2/3/192
分类 特征变量 说明
航班 发到时段 DEPART_CLOCK 出发钟点
ARRIVE_CLOCK 到达钟点
出发
日期
与年度
相关
WEEK_OF_THE_YEAR 该年第几周
YEARS_DIFF 年份之差
与周
相关
DAY_OF_THE_WEEK 星期几
IS_MONDAY 是否周一
IS_FRIDAY 是否周五
IS_WEEKEND 是否周末
航线 社会经济特征 DEP_CITY_LEVEL 出发城市的城市等级
ARR_CITY_LEVEL 到达城市的城市等级
DEP_GDP 出发城市的人均GDP
ARR_GDP 到达城市的人均GDP
DEP_POPULATION 出发城市的人口数
ARR_POPULATION 到达城市的人口数
空间距离 DISTANCE 航程
高铁服务水平 HSR_STD_PRICE 高铁单位里程票价
HSR_NUM 高铁日均开行班次
预测周期 DAYS_DIFF 距离起飞天数
Table 1  特征变量备选集
步骤 特征变量 备注
自变量 控制变量
1 出发日期 空间距离
高铁服务水平
社会经济特征
发到时段
预测周期
将表征出发日期的两类变量进行组合,构造16个模型M1-M16,如表3所示。
2 空间距离 出发日期
高铁服务水平
社会经济特征
发到时段
预测周期
去掉空间距离这一变量,构造模型M17。
3 高铁服务水平 出发日期
空间距离
社会经济特征
发到时段
预测周期
将表征高铁服务水平的两个变量进行组合,构造3个模型M18-M20,如表4所示。
4 社会经济特征 出发日期
空间距离
高铁服务水平
发到时段
预测周期
将表征社会经济特征的三组变量进行组合,构造7个模型M21-M27,如表5所示。
Table 2  模型构建过程
特征

模型
M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12 M13 M14 M15 M16
WEEK_OF_THE_YEAR - - - - - - - -
YEARS_DIFF - - - - - - - -
DAY_OF_THE_WEEK - - - - - - - - - - -
IS_MONDAY - - - - - - - - - - - -
IS_FRIDAY - - - - - - - - - - - -
IS_WEEKEND - - - - - - - -
Table 3  出发日期的特征表示
特征

模型
M18 M19 M20
HSR_STD_PRICE - -
HSR_NUM - -
Table 4  高铁服务水平的特征表示
特征

模型
M21 M22 M23 M24 M25 M26 M27
DEP_CITY_LEVEL - - - -
ARR_CITY_LEVEL - - - -
DEP_GDP - - - -
ARR_GDP - - - -
DEP_POPULATION - - - -
ARR_POPULATION - - - -
Table 5  社会经济特征的特征表示
参数 取值范围
C [0.001,0.01,0.1,1,10,100]
ε [0.001,0.01,0.1,1,10,100]
γ [2-10,2-9,,23]
Table 6  参数取值范围

与年度相关


与周相关
- DAY_OF_THE_WEEK IS_WEEKEND IS_MONDAY IS_FRIDAY IS_WEEKEND
误差(模型) 误差(模型) 误差(模型) 误差(模型)
- 28.90%(M1) 19.87%(M5) 29.72%(M9) 26.51%(M13)
WEEK_OF_THE_YEAR 19.14%(M2) 19.60%(M6) 19.65%(M10) 19.70%(M14)
YEARS_DIFF 21.64%(M3) 13.59%(M7) 22.69%(M11) 14.36%(M15)
WEEK_OF_THE_YEAR
YEARS_DIFF
13.39%(M4) 13.89%(M8) 14.24%(M12) 20.78%(M16)
Table 7  出发日期不同表示方式的误差对比
误差(模型)
有DISTANCE 13.39%(M4)
无DISTANCE 16.19%(M17)
Table 8  模型中是否包含航程的误差对比
有HSR_NUM 无HSR_NUM
误差(模型) 误差(模型)
有HSR_STD_PRICE 13.39%(M4) 13.37%(M20)
无HSR_STD_PRICE 13.37%(M19) 13.33%(M18)
Table 9  高铁服务水平不同表示方式的误差对比
社会经济特征 误差 模型 P值
M18 M21 M22 M23 M24 M25 M26
ALL 13.33% M18 - - - - - - -
NONE 24.12% M21 0.000* - - - - - -
CITY_LEVEL+GDP 13.43% M22 0.388 0.000* - - - - -
CITY_LEVEL+PLN 13.15% M23 0.582 0.000* 0.076 - - - -
GDP+PLN 13.26% M24 0.315 0.000* 0.204 0.709 - - -
CITY_LEVEL 13.51% M25 0.395 0.000* 0.515 0.021* 0.163 - -
GDP 20.36% M26 0.000* 0.035* 0.000* 0.000* 0.000* 0.000* -
PLN 17.68% M27 0.001* 0.000* 0.001* 0.000* 0.000* 0.000* 0.045*
Table 10  社会经济特征不同表示方式的误差及P值对比
航线 混合航线 单条航线 误差之差
南宁-郑州 18.78% 33.74% -14.96%
重庆-福州 5.48% 13.45% -7.97%
南宁-武汉 6.30% 9.60% -3.30%
南昌-北京 20.76% 19.58% 1.18%
杭州-长沙 4.86% 3.63% 1.23%
郑州-深圳 7.90% 2.34% 5.56%
广州-南宁 15.79% 1.54% 14.25%
Table 11  混合航线与单航线的预测误差对比
Fig.1  各航线单位里程票价分布情况
航线 测试集中具有不同年份的历史
同期数据的占比
测试集中具有近期数据的占比
2年 1年 没有
南宁-郑州 8% 23% 12% 57%
重庆-福州 9% 9% 9% 73%
南宁-武汉 42% 0% 14% 44%
南昌-北京 16% 8% 7% 69%
杭州-长沙 - - - 100%
郑州-深圳 - - - 100%
广州-南宁 - - - 100%
Table 12  各航线数据集情况
[1] Etzioni O, Tuchinda R, Knoblock C , et al. To Buy or Not to Buy: Mining Airfare Data to Minimize Ticket Purchase Price [C]// Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2003: 119-128.
[2] Wohlfarth T, Clémençon S, Roueff F , et al. A Data-Mining Approach to Travel Price Forecasting [C]// Proceedings of the 10th International Conference on Machine Learning & Applications & Workshops. 2011: 84-89.
[3] 顾兆军, 王双, 赵亿 . 基于时间序列的机票价格预测模型[J]. 中国民航大学学报, 2013,31(2):80-84.
[3] ( Gu Zhaojun, Wang Shuang, Zhao Yi . Flight Ticket Fare Prediction Model Based on Time-Serial[J]. Journal of Civil Aviation University of China, 2013,31(2):80-84.)
[4] Tziridis K, Kalampokas T, Papakostas G A , et al. Airfare Prices Prediction Using Machine Learning Techniques [C]// Proceedings of the 25th European Signal Processing Conference. 2017: 1036-1039.
[5] Chen Y, Cao J, Feng S , et al. An Ensemble Learning Based Approach for Building Airfare Forecast Service [C]// Proceedings of the 2015 IEEE International Conference on Big Data. 2015: 964-969.
[6] Xu Y, Cao J . OTPS: A Decision Support Service for Optimal Airfare Ticket Purchase [C]// Proceedings of the 2017 IEEE International Conference on Big Data. 2017: 1363-1368.
[7] 王振, 张志敏, 禚保玲 . 基于多源数据的青岛市中心城区城市特征研究[C]//2018中国城市规划年会. 2018.
[7] ( Wang Zhen, Zhang Zhimin, Zhuo Baoling . Research on the Urban Characteristics of Qingdao City Center Based on Multi-source Data[C]//Proceedings of 2018 China Urban Planning Annual Meeting. 2018.
[8] 卢晓涵, 罗吉, 琚瑞 , 等. 基于区域竞争力的国家中心城市特征研究[C]//2018中国城市规划年会. 2018.
[8] ( Lu Xiaohan, Luo Ji, Ju Rui , et al. Research on the Characteristics of National Central Cities Based on Regional Competitiveness[C]//Proceedings of 2018 China Urban Planning Annual Meeting. 2018.
[9] He D, Lin Y C, Chen J , et al. Microstructural Evolution and Support Vector Regression Model for an Aged Ni-Based Superalloy During Two-Stage Hot Forming with Stepped Strain Rates[J]. Materials & Design, 2018,154:51-62.
[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 李文娜,张智雄. 基于置信学习的知识库错误检测方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 1-9.
[3] 孙羽, 裘江南. 基于网络分析和文本挖掘的意见领袖影响力研究 [J]. 数据分析与知识发现, 0, (): 1-.
[4] 王勤洁, 秦春秀, 马续补, 刘怀亮, 徐存真. 基于作者偏好和异构信息网络的科技文献推荐方法研究*[J]. 数据分析与知识发现, 2021, 5(8): 54-64.
[5] 李文娜, 张智雄. 基于联合语义表示的不同知识库中的实体对齐方法研究*[J]. 数据分析与知识发现, 2021, 5(7): 1-9.
[6] 王昊, 林克柔, 孟镇, 李心蕾. 文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[7] 杨晗迅, 周德群, 马静, 罗永聪. 基于不确定性损失函数和任务层级注意力机制的多任务谣言检测研究*[J]. 数据分析与知识发现, 2021, 5(7): 101-110.
[8] 徐月梅, 王子厚, 吴子歆. 一种基于CNN-BiLSTM多特征融合的股票走势预测模型*[J]. 数据分析与知识发现, 2021, 5(7): 126-138.
[9] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[10] 王晰巍,贾若男,韦雅楠,张柳. 多维度社交网络舆情用户群体聚类分析方法研究*[J]. 数据分析与知识发现, 2021, 5(6): 25-35.
[11] 阮小芸,廖健斌,李祥,杨阳,李岱峰. 基于人才知识图谱推理的强化学习可解释推荐研究*[J]. 数据分析与知识发现, 2021, 5(6): 36-50.
[12] 刘彤,刘琛,倪维健. 多层次数据增强的半监督中文情感分析方法*[J]. 数据分析与知识发现, 2021, 5(5): 51-58.
[13] 陈文杰,文奕,杨宁. 基于节点向量表示的模糊重叠社区划分算法*[J]. 数据分析与知识发现, 2021, 5(5): 41-50.
[14] 张国标,李洁. 融合多模态内容语义一致性的社交媒体虚假新闻检测*[J]. 数据分析与知识发现, 2021, 5(5): 21-29.
[15] 闫强,张笑妍,周思敏. 基于义原相似度的关键词抽取方法 *[J]. 数据分析与知识发现, 2021, 5(4): 80-89.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn