Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (2/3): 192-199     https://doi.org/10.11925/infotech.2096-3467.2019.0522
  专辑 本期目录 | 过刊浏览 | 高级检索 |
考虑航线特征的机票价格预测方法研究*
钟丽珍1,马敏书1(),周长锋2
1北京交通大学交通运输学院 北京 100044
2中国国家铁路集团有限公司客运部 北京 100033
Forecasting Airfare Based on Route Characteristics
Zhong Lizhen1,Ma Minshu1(),Zhou Changfeng2
1School of Traffic and Transportation, Beijing Jiaotong University, Beijing 100044, China
2Passenger Transport Department, China State Railway Group Co., Ltd., Beijing 100033, China
全文: PDF (783 KB)   HTML ( 4
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 对日均航班数较少且历史数据不完整甚至缺失的航线进行票价预测,辅助旅客进行购票时间决策。【方法】 借助多条航线的历史数据解决这类航线的票价预测问题。基于前人研究以及数据的可获得性,提取一批可能与机票价格波动相关的特征变量;对这些变量进行分类并利用控制变量的思想,逐步找出最合适的机票价格预测模型。【结果】 模型中包含与年度相关的变量(航程变量、航线的社会经济特征)时,其预测误差小于不包含的情况。【局限】 没有考虑中转航班等因素;没有研究居民可支配收入等特征变量;没有引入更多的预测算法和模型评价指标。【结论】 年度相关特征、两地间航程以及航线的社会经济特征均与机票价格波动相关。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
钟丽珍
马敏书
周长锋
关键词 机票价格预测支持向量回归购票时间决策航线特征    
Abstract

[Objective] This paper predicts airfare on routes with fewer daily average flights and incomplete or even no historical data, aiming to help passengers choose better ticketing time.[Methods] We used historical data of multiple routes to predict airfares of the targets. Based on previous research and data, we extracted characteristic variables related to airfare fluctuations. We also classified these variables to establish the airfare forecasting model.[Results] When the model contains variables like the distance and the socio-economic characteristics of the route, the prediction error was significantly reduced.[Limitations] We did not include transit flights and local residents’ income data in our study. More research is needed to evaluate the performance of predicting algorithms.[Conclusions] The characteristics related to the year, the distance between the two places and the socio-economic factors of the routes are the main reasons for airfare fluctuations.

Key wordsAirfare Prediction    Support Vector Regression    Ticket Purchase Time Decision    Route Characteristic
收稿日期: 2019-05-16      出版日期: 2020-04-26
ZTFLH:  TP393  
基金资助:*本文系国家重点研发计划项目“铁路客货运效益与服务水平提高技术”(2018YFB1201402);中国铁路总公司科技研究开发计划项目“面向铁路客运经营与服务的大数据关键技术研究”的研究成果之一(2017X004-C)
通讯作者: 马敏书     E-mail: mshma@bjtu.edu.cn
引用本文:   
钟丽珍,马敏书,周长锋. 考虑航线特征的机票价格预测方法研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 192-199.
Zhong Lizhen,Ma Minshu,Zhou Changfeng. Forecasting Airfare Based on Route Characteristics. Data Analysis and Knowledge Discovery, 2020, 4(2/3): 192-199.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0522      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I2/3/192
分类 特征变量 说明
航班 发到时段 DEPART_CLOCK 出发钟点
ARRIVE_CLOCK 到达钟点
出发
日期
与年度
相关
WEEK_OF_THE_YEAR 该年第几周
YEARS_DIFF 年份之差
与周
相关
DAY_OF_THE_WEEK 星期几
IS_MONDAY 是否周一
IS_FRIDAY 是否周五
IS_WEEKEND 是否周末
航线 社会经济特征 DEP_CITY_LEVEL 出发城市的城市等级
ARR_CITY_LEVEL 到达城市的城市等级
DEP_GDP 出发城市的人均GDP
ARR_GDP 到达城市的人均GDP
DEP_POPULATION 出发城市的人口数
ARR_POPULATION 到达城市的人口数
空间距离 DISTANCE 航程
高铁服务水平 HSR_STD_PRICE 高铁单位里程票价
HSR_NUM 高铁日均开行班次
预测周期 DAYS_DIFF 距离起飞天数
Table 1  特征变量备选集
步骤 特征变量 备注
自变量 控制变量
1 出发日期 空间距离
高铁服务水平
社会经济特征
发到时段
预测周期
将表征出发日期的两类变量进行组合,构造16个模型M1-M16,如表3所示。
2 空间距离 出发日期
高铁服务水平
社会经济特征
发到时段
预测周期
去掉空间距离这一变量,构造模型M17。
3 高铁服务水平 出发日期
空间距离
社会经济特征
发到时段
预测周期
将表征高铁服务水平的两个变量进行组合,构造3个模型M18-M20,如表4所示。
4 社会经济特征 出发日期
空间距离
高铁服务水平
发到时段
预测周期
将表征社会经济特征的三组变量进行组合,构造7个模型M21-M27,如表5所示。
Table 2  模型构建过程
特征

模型
M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12 M13 M14 M15 M16
WEEK_OF_THE_YEAR - - - - - - - -
YEARS_DIFF - - - - - - - -
DAY_OF_THE_WEEK - - - - - - - - - - -
IS_MONDAY - - - - - - - - - - - -
IS_FRIDAY - - - - - - - - - - - -
IS_WEEKEND - - - - - - - -
Table 3  出发日期的特征表示
特征

模型
M18 M19 M20
HSR_STD_PRICE - -
HSR_NUM - -
Table 4  高铁服务水平的特征表示
特征

模型
M21 M22 M23 M24 M25 M26 M27
DEP_CITY_LEVEL - - - -
ARR_CITY_LEVEL - - - -
DEP_GDP - - - -
ARR_GDP - - - -
DEP_POPULATION - - - -
ARR_POPULATION - - - -
Table 5  社会经济特征的特征表示
参数 取值范围
C [0.001,0.01,0.1,1,10,100]
ε [0.001,0.01,0.1,1,10,100]
γ [2-10,2-9,,23]
Table 6  参数取值范围

与年度相关


与周相关
- DAY_OF_THE_WEEK IS_WEEKEND IS_MONDAY IS_FRIDAY IS_WEEKEND
误差(模型) 误差(模型) 误差(模型) 误差(模型)
- 28.90%(M1) 19.87%(M5) 29.72%(M9) 26.51%(M13)
WEEK_OF_THE_YEAR 19.14%(M2) 19.60%(M6) 19.65%(M10) 19.70%(M14)
YEARS_DIFF 21.64%(M3) 13.59%(M7) 22.69%(M11) 14.36%(M15)
WEEK_OF_THE_YEAR
YEARS_DIFF
13.39%(M4) 13.89%(M8) 14.24%(M12) 20.78%(M16)
Table 7  出发日期不同表示方式的误差对比
误差(模型)
有DISTANCE 13.39%(M4)
无DISTANCE 16.19%(M17)
Table 8  模型中是否包含航程的误差对比
有HSR_NUM 无HSR_NUM
误差(模型) 误差(模型)
有HSR_STD_PRICE 13.39%(M4) 13.37%(M20)
无HSR_STD_PRICE 13.37%(M19) 13.33%(M18)
Table 9  高铁服务水平不同表示方式的误差对比
社会经济特征 误差 模型 P值
M18 M21 M22 M23 M24 M25 M26
ALL 13.33% M18 - - - - - - -
NONE 24.12% M21 0.000* - - - - - -
CITY_LEVEL+GDP 13.43% M22 0.388 0.000* - - - - -
CITY_LEVEL+PLN 13.15% M23 0.582 0.000* 0.076 - - - -
GDP+PLN 13.26% M24 0.315 0.000* 0.204 0.709 - - -
CITY_LEVEL 13.51% M25 0.395 0.000* 0.515 0.021* 0.163 - -
GDP 20.36% M26 0.000* 0.035* 0.000* 0.000* 0.000* 0.000* -
PLN 17.68% M27 0.001* 0.000* 0.001* 0.000* 0.000* 0.000* 0.045*
Table 10  社会经济特征不同表示方式的误差及P值对比
航线 混合航线 单条航线 误差之差
南宁-郑州 18.78% 33.74% -14.96%
重庆-福州 5.48% 13.45% -7.97%
南宁-武汉 6.30% 9.60% -3.30%
南昌-北京 20.76% 19.58% 1.18%
杭州-长沙 4.86% 3.63% 1.23%
郑州-深圳 7.90% 2.34% 5.56%
广州-南宁 15.79% 1.54% 14.25%
Table 11  混合航线与单航线的预测误差对比
Fig.1  各航线单位里程票价分布情况
航线 测试集中具有不同年份的历史
同期数据的占比
测试集中具有近期数据的占比
2年 1年 没有
南宁-郑州 8% 23% 12% 57%
重庆-福州 9% 9% 9% 73%
南宁-武汉 42% 0% 14% 44%
南昌-北京 16% 8% 7% 69%
杭州-长沙 - - - 100%
郑州-深圳 - - - 100%
广州-南宁 - - - 100%
Table 12  各航线数据集情况
[1] Etzioni O, Tuchinda R, Knoblock C , et al. To Buy or Not to Buy: Mining Airfare Data to Minimize Ticket Purchase Price [C]// Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2003: 119-128.
[2] Wohlfarth T, Clémençon S, Roueff F , et al. A Data-Mining Approach to Travel Price Forecasting [C]// Proceedings of the 10th International Conference on Machine Learning & Applications & Workshops. 2011: 84-89.
[3] 顾兆军, 王双, 赵亿 . 基于时间序列的机票价格预测模型[J]. 中国民航大学学报, 2013,31(2):80-84.
[3] ( Gu Zhaojun, Wang Shuang, Zhao Yi . Flight Ticket Fare Prediction Model Based on Time-Serial[J]. Journal of Civil Aviation University of China, 2013,31(2):80-84.)
[4] Tziridis K, Kalampokas T, Papakostas G A , et al. Airfare Prices Prediction Using Machine Learning Techniques [C]// Proceedings of the 25th European Signal Processing Conference. 2017: 1036-1039.
[5] Chen Y, Cao J, Feng S , et al. An Ensemble Learning Based Approach for Building Airfare Forecast Service [C]// Proceedings of the 2015 IEEE International Conference on Big Data. 2015: 964-969.
[6] Xu Y, Cao J . OTPS: A Decision Support Service for Optimal Airfare Ticket Purchase [C]// Proceedings of the 2017 IEEE International Conference on Big Data. 2017: 1363-1368.
[7] 王振, 张志敏, 禚保玲 . 基于多源数据的青岛市中心城区城市特征研究[C]//2018中国城市规划年会. 2018.
[7] ( Wang Zhen, Zhang Zhimin, Zhuo Baoling . Research on the Urban Characteristics of Qingdao City Center Based on Multi-source Data[C]//Proceedings of 2018 China Urban Planning Annual Meeting. 2018.
[8] 卢晓涵, 罗吉, 琚瑞 , 等. 基于区域竞争力的国家中心城市特征研究[C]//2018中国城市规划年会. 2018.
[8] ( Lu Xiaohan, Luo Ji, Ju Rui , et al. Research on the Characteristics of National Central Cities Based on Regional Competitiveness[C]//Proceedings of 2018 China Urban Planning Annual Meeting. 2018.
[9] He D, Lin Y C, Chen J , et al. Microstructural Evolution and Support Vector Regression Model for an Aged Ni-Based Superalloy During Two-Stage Hot Forming with Stepped Strain Rates[J]. Materials & Design, 2018,154:51-62.
[1] 张纯金,郭盛辉,纪淑娟,杨伟,伊磊. 基于多属性评分隐表征学习的群组推荐算法*[J]. 数据分析与知识发现, 2020, 4(12): 120-135.
[2] 陈先来, 罗霄, 刘莉, 李忠民, 安莹. 基于识别率的多叉树森林k-匿名算法*[J]. 数据分析与知识发现, 2020, 4(12): 14-25.
[3] 王根生,潘方正. 融合加权异构信息网络的矩阵分解推荐算法*[J]. 数据分析与知识发现, 2020, 4(12): 76-84.
[4] 祁瑞华,简悦,郭旭,关菁华,杨明昕. 融合特征与注意力的跨领域产品评论情感分析*[J]. 数据分析与知识发现, 2020, 4(12): 85-94.
[5] 李娇,黄永文,罗婷婷,赵瑞雪,鲜国建. 基于多因子算法的自动分类研究*[J]. 数据分析与知识发现, 2020, 4(11): 43-51.
[6] 秦成磊,章成志. 基于层次注意力网络模型的学术文本结构功能识别*[J]. 数据分析与知识发现, 2020, 4(11): 26-42.
[7] 陈先来, 罗霄, 刘莉, 李忠民, 安莹. 基于识别率的多叉树森林k-匿名算法 [J]. 数据分析与知识发现, 0, (): 1-.
[8] 王晰巍,张柳,黄博,韦雅楠. 基于LDA的微博用户主题图谱构建及实证研究*——以“埃航空难”为例[J]. 数据分析与知识发现, 2020, 4(10): 47-57.
[9] 丁恒,李映萱. 基于深度学习的问答平台查询推荐研究*[J]. 数据分析与知识发现, 2020, 4(10): 37-46.
[10] 李家全,李宝安,游新冬,吕学强. 基于专利知识图谱的专利术语相似度计算研究*[J]. 数据分析与知识发现, 2020, 4(10): 104-112.
[11] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[12] 陶玥,余丽,张润杰. 科技文献中短语级主题抽取的主动学习方法研究*[J]. 数据分析与知识发现, 2020, 4(10): 134-143.
[13] 张思凡, 牛振东, 陆浩, 朱一凡, 王荣荣. 基于图卷积嵌入与特征交叉的文献被引量预测方法:以交通运输领域为例 [J]. 数据分析与知识发现, 0, (): 1-.
[14] 张思凡,牛振东,陆浩,朱一凡,王荣荣. 基于图卷积嵌入与特征交叉的文献被引量预测方法:以交通运输领域为例*[J]. 数据分析与知识发现, 2020, 4(9): 56-67.
[15] 曾桢,李纲,毛进,陈璟浩. 区域公共安全数据治理与业务领域本体研究*[J]. 数据分析与知识发现, 2020, 4(9): 41-55.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn