时间维度的云服务发展态势研究
王伟军, 鲍丽倩, 刘凯
华中师范大学信息管理学院 武汉 430079
王伟军 E-mail:wangwj@mail.ccnu.edu.cn

王伟军, 刘凯: 提出研究思路, 设计研究方案;
鲍丽倩: 数据分析和论文起草;
刘凯: 数据采集和清洗;
王伟军, 鲍丽倩, 刘凯: 论文修订。

摘要

【目的】

借助云服务概念簇数量的变化探究云服务当前的发展状况及其未来趋势。

【方法】

逐一抓取近12年Google搜索引擎收录云服务概念簇的词条数, 采用时间序列分析法进行研究。

【结果】

云服务可分为陡增型、脉冲型和波动型三类。陡增型云服务会继续增长, 但增长趋势会减缓; 脉冲型云服务出现增长趋势的可能性不大; 波动型云服务未来的发展走向不稳定。

【局限】

只从时间维度来分析云服务的发展趋势, 如果要获取更加可靠的结果, 需要结合政治、经济、社会等环境因素共同考量。

【结论】

云服务从实验室迈入市场, 今后可能向着服务集中化管理方向发展, 特定行业会有个性化定制的云服务。

关键词: 云服务; XaaS; 时间序列分析; 预测
Development Trends of Cloud Services in Time Dimension
Wang Weijun, Bao Liqian, Liu Kai
School of Information Management, Central China Normal University, Wuhan 430079, China
Abstract

[Objective]

Explore the current status and development trends in future with the change of numbers of cloud services.

[Methods]

Grab entries of cloud service concepts of Google search engine in last 12 years, using time series analysis.

[Results]

Cloud services can be divided into steep-type, pulse-type and wave-type categories. Steep-type cloud service will continue to grow, but the growth trend will slow down. It is unlikely for pulse-type cloud service to grow.The development trend of pulse-type cloud service is instability.

[Limitations]

Analyze trends of cloud services only from the time dimension.

[Conclusions]

From laboratory to market, cloud services may develop in the direction of centralized management services in the future, there will be industry-specific customization of cloud services.

Keyword: Cloud service; XaaS; Time series analysis; Forecasting
1 引 言

早在20世纪60年代, 麦卡锡(John McCarthy)就提出预测: 计算迟早有一天会变成一种公共基础设施[1], 而这些应用服务统称为云服务。1999年, Salesforce.com通过网站向企业提供企业级应用, 提出云计算和软件即服务的理念, 开创了新的里程碑[2]。IBM和Google于2007年开始在云计算领域进行合作, 云计算作为一种全新的商业和应用计算方式被正式提出, 并迅速成为学术界和产业界研究的热点[3]。据IDC预测, 云计算服务全球增长率为26%, 而中国的云计算市场保持在30%-40%的增长率。Gartner甚至认为云服务将在2014年取代PC而成为市场中的主要计算形式[4]

云服务应用已经深入人们生活的各个领域, 正在引发IT业的新变革。它的发展加速企业信息化、推助电子商务的发展、优化互联网资源配置, 对互联网产业、信息技术及电子商务领域影响深远, 所以分析云服务近段时间的发展情况和预测今后的发展态势是极其必要的。

2 研究现状

云计算近几年发展迅猛, 与此同时以“-aaS”为后缀的云服务也取得了爆炸式增长, 被统称为“XaaS”概念簇[5], 它概括了所有与云计算有关的服务, 为大众所熟知的则是IaaS、PaaS和SaaS(简称SPI)。IaaS(Infrastructure as a Service): 基础设施提供商投资重要的技术、服务和数据中心, 将IT作为服务提供给客户。PaaS(Platform as a Service): 平台提供商向使用者提供集成的开发环境、服务器和硬件等资源。使用者可以在平台上进行软件开发生命周期的一系列活动, 包括软件开发、测试、部署和维护, 还可以将应用程序与其他用户协作共享。SaaS(Software as a Service): 是软件提供商将应用软件统一部署在远程数据中心的服务器或服务器集群上供用户使用[6]

在产业界, 云服务从出现就吸引了各界的关注。2007年, 亚马逊的AWS、IBM和Google联合进行的蓝云计划, 亚马逊开IaaS先河推出了“弹性云”模式[7]。2008年, Google的App Engine[8]和微软的Azure[9]都推出了PaaS的模式, 允许公司创建个性化的应用, 也允许独立软件厂商或者其他的第三方机构针对垂直细分行业创造新的解决方案。Salesforce、NetSuite、Google的Gmail及SPSCommerce.net更是将SaaS发挥到极致, 凸显提供软件的快捷和便利。

在学术界, 国内外已经有学者对云服务发展趋势做了相关研究, 主要视角可集中分为以下几类:

(1) 通过云服务的市场份额、市场价值等经济因素的变化来预测未来走势。Pring等据此预测SaaS成为云服务中的领先指标, 并且将会被云应用所代替, IaaS及设施提供者对云服务的影响有望超过目前预期[10]

(2) 对云服务相关概念研究现状考察后作出预测。Leavitt通过对云服务基础结构、实施、应用分类、性能和可靠性、安全和隐私等问题的阐述来确定未来的发展趋势, 预测在未来5年内, 云计算服务将成为中小型企业外包服务的解决方案, 而大型企业则需要建设大型数据中心来获得高负载能力[11]。Armbrust等则从云服务的十点挑战和机遇入手, 预测了三大走势: 应用软件匹配付费许可模式, 基础软件运行于虚拟主机, 硬件系统设计于同一容器尺度内[12]

(3) 云服务在图书馆学领域的探索。刘炜提出一套由云服务检索方式、云服务器构架、云共享相结合的检索服务方式[13]

(4) 云服务相关技术的预测。冯宇彦等从云服务的技术架构切入, 通过4种适配器将物理机、虚拟机、网络设备和存储设备整合, 建立统一的资源池[14]

上述研究成果固然丰富, 涉及经济学、计算机科学、情报学等领域, 不过遗憾的是研究大多只是对SPI进行预测, 而无法得知其他概念簇的发展态势。在XaaS向商务、社会领域融合的背景下, 以技术为基础的SPI并不能代表整个云服务市场, 因此, 现有的研究无法对云服务进行更为细致的趋势预测。针对这一问题, 本文将云服务概念簇展开进行详尽的研究。

3 研究方法与数据
3.1 研究方法

时间序列分析是一种重要的现代统计分析方法, 研究一组按某种(如时间)顺序排列的动态数据的统计规律[15]。 20世纪60年代后期, 在Box和Jenkins[16]提出一套比较完善的建模理论及方法后, 时间序列分析日趋完善, 成为自然科学、社会科学领域中不可缺少的数据分析工具。目前, 其理论和方法已被广泛应用到工程技术、地震、气象、水文、生物医学、经济管理以及军事科学等诸多领域。但是没有相关研究利用时间序列法分析云计算相关概念的发展趋势。作为互联网环境下诞生的新兴知识理念, 云服务的发展动态及其未来走势对互联网产业、信息技术及电子商务等相关领域影响深远。而时间序列分析可以根据不同时间段云服务数据中所反映的发展过程、周期、方向和趋势, 进行类推或延伸, 借以推测云服务未来可能达到的发展水平。基于此, 本文利用时间序列法对云服务近十几年的发展情况进行梳理并研究其未来走势, 以期能够对云服务研究有所裨益。

3.2 数据来源

搜索引擎的词条创建数可以直观体现每个XaaS的产生时间、关注度和变化趋势, 借此来预测概念簇未来的发展趋势。为确保样本来源范围足够广、样本量足够大, 本研究选择Web搜索引擎作为数据采集工具。首先使用“SaaS、PaaS、IaaS和Ecosystem”4个关键词对Google、Bing、Yahoo、Lycos、Baidu 这5种知名的搜索引擎进行预测试。按搜索引擎的不同划分5个组, 检全率用4个关键词的某个搜索结果条目之和与5组全部结果条目总量的比例进行表示, 而检准率的确定则采用人工判定的方式计算前10页中命中条数与前10页总条数的比例。比对测试结果发现, Yahoo、Lycos和Baidu搜索结果广度不够而Bing的精度不够, 同时考虑到Google对学术数据库也有较好的涵盖, 因此最终选取Google作为唯一的数据来源采集工具。

随后采用‘XaaS’ AND ‘as a service’的检索词形式进行搜索, X取值分别由A至Z, 通过手工逐一搜集每个XaaS的中文名称、含义、搜索量、可发现的最早提出日期、最早提出者及出处并导入数据库。最终, 整理出与云计算紧密相关的XaaS概念形式共152个。最后利用笔者开发的蜘蛛爬虫工具, 采集了Google上所有概念词从诞生至今的词条数量, 作为时间序列分析的数据来源。创建词条数可以直观表明该概念的使用频率及深度, 从而代表了它在云服务领域的流行趋势。

3.3 数据预处理

考虑到时间序列随时间动态、整体的统计规律性, 对数据进行预处理是非常有必要的。预处理过程既能够使序列随时间变化的特征体现更加明显, 有利于模型选择, 也能使得数据满足模型的要求。

由于部分云服务概念比较生僻, 致使网络搜索词条数出现为零的情况, 为保证结果的相对准确, 对三年以上为无记录的概念进行删除。此外, SPI模型服务与其他XaaS服务数量级相差很大(后文专门研究该模型的序列图), 也在研究云服务整体发展脉络时予以删除, 最后剩余93个XaaS云服务概念。将其导入SPSS 21.0中进行时间序列分析, 在对有缺失值的数据进行修补, 以及将数据资料定义为相应的时间序列之后, 得出观察数据的时间序列图, 如图1所示:

图1 XaaS时间序列总图

纵观图1中词汇的走向, XaaS概念簇诞生于2000年, 经历2000年- 2005年的孕育期后, 于2006开始爆炸式增长。该趋势完全符合云服务的生长模式, 这是因为云服务是依托云计算的大数据支撑应运而生的, 而且云服务必须要基于分布式系统和可扩展性机器等环境才能发挥效用, 其取用方便、费用低廉等优点也令增长成为必然。

根据序列图曲线呈现不同的外形特点, 可以将XaaS划分为三种类型:

(1) 陡增型。陡增型指的是序列图曲线首先基本与时间轴平行, 而后在某一个时间段出现大幅度上升。这类XaaS在2000年- 2005年之间几乎为零增长, 从2006年- 2008年起呈现几何倍数增长, 在短短几年内达到高峰。以Access as a Service为代表的应用类服务构成此类云服务概念簇的主体。陡增型揭示出XaaS蓬勃生长的原因, 即云计算发展使得应用类服务变得快捷和便利, 各种应用性服务大量出现且迅猛增长。

(2) 脉冲型。脉冲型是指序列图呈现1-2个脉冲, 走向存在明显的起伏波动, 突出表现为一个阶段的上涨之后出现下滑趋势。结合此类概念的涵义及背景, 可以发现脉冲型云服务的两大特点: 一是与计算机软硬件紧密相关, 如Database as a Service; 二是与特定企业紧密相关, 如Yahoo as a Service便直接以企业命名。互联网产品更新换代速度较快, 相关服务风靡一时之后的销声匿迹, 就符合这种起伏。专有名词命名的云服务, 由于用户的类型和数量非常有限, 也会出现脉冲式的增长态势。

(3) 波动型。此类序列图走势起伏频繁, 而且相隔年份的数量相差悬殊。本类概念簇走向极不稳定, 序列图至少出现三次以上的升降趋势。波动型的云服务并不常见且多与商业相关, 如Business Integration as a Service。对词条进行深入分析后, 发现引发波动的主要原因在于这类云服务模式易受到当时政治、经济、贸易等外部环境因素的影响, 从而起伏较大。从图1中可见, 陡增型占比最大, 其次是脉冲型, 波动型最小。具体的数量分布如表1所示:

表1 三种类型的数量分布
4 基于时间序列法的预测分析
4.1 模型识别

由云计算的序列图观察得到XaaS没有呈现季节性变化趋势, 不需要进行季节差分处理, 采用指数平滑中的无季节性模型——Brown线性趋势模型和Holt线性趋势模型及ARIMA模型。

指数平滑法最先由Holt在1958年提出, 它最初只应用于无趋势、非季节作为基本形式的时间序列的分析, 后经Brown、Winter等统计学家的深入研究和发展, 使指数平滑设计的数据内部构成更丰富[17]

Brown线性趋势的基本原理是将一次和二次平滑值之差加在一次平滑值上, 从而对趋势进行修正, 计算公式如下[17]:

(1)

其中: 为一次指数平滑值, 为二次指数平滑值; m为预测超前期数, 为第m期预测值。

Holt平滑法原理与布朗平滑法相似, 只是不用二次指数平滑, 而是对趋势直接进行平滑, 计算公式如下[17]:

(2)

其中, t为当期, 为预期超前期数, Tt表示趋势估计, bt表示利用t期的数据对趋势增量b的估计, xt是第t期的实际观察值, 利用前t期数据, 对第 期的预测值, α, β 是平滑常数, 满足0<α, β<1。

ARIMA(求和自回归移动平均模型)是由Box 和Jenkins于20 世纪70 年代初提出的著名时间序列预测方法[16], 所以又称为B-J 模型、博克思-詹金斯法。ARIMA模型的优点在于: 该方法做出的预测比传统计量建模方法做出的预测更加可靠, 特别在短期预测方面[18]。它包含三个主要的参数——自回归阶数(p)、差分阶数(d)和移动平均阶数(q), 一般模型形式记为ARIMA(p, d, q)。

笔者从这三类中选择有代表性的云服务进行时间序列分析, 依据序列图的分析和专家建模分别采用不同的模型, 如表2所示:

表2 模型选择及预测数据表
4.2 模型检验

(1) 指数平滑法。“模型描述”可知当前模型所使用的分析变量和方法。“模型拟合”给出了包括平稳R方在内的8个拟合优度统计量。“模型统计量”表格显示平稳R方统计量的取值都大于0(0.613, 0.274, 0.135, 0.470, 0.116), 说明当前Brown/Holt线性模型要优于基本的均值模型。关于残差的自相关(ACF)和偏自相关(PACF)序列图都没有明显趋势特征(拖尾或截尾)。由观测序列, 拟合序列在图中高度相近的特点, 可以判断使用的模型是较为合理的。预测索引词条数分别为Backup as a Service(17 763), Database as a Service(8 336), User Interface as a Service(628), Filtering as a Service(13), Business Integration as a Service(39)。

(2) ARIMA。模型参数输出中t统计量的显著性(sig列)显示模型参数都非常显著地为0。残差序列图也显示都没有明显趋势特征(拖尾或截尾)。由观测序列, 拟合序列在图中高度相近的特点, 可以判断ARIMA使用的模型是较为合理的。预测索引词条数为ERP-as-a-Service(1 074)。

4.3 模型预测

SPI作为基础云服务模型, 不能忽视它对整个云服务的影响。为了探测SPI模型是否指引云服务的未来的走向, 同样也对SPI模型进行时间序列分析。观之SPI模型中三个序列图走向(见图2), 除Software as a Service从2007年开始上涨趋势明显外, Infrastructure as a Service和Platform as a Service在2010年之后才凸显涨幅。由表2的预测数据可得: 就增长率而言, 预测SPI模型中检索词条最高的增长率为177.57%(Software as a Service), 同比上一年增长率下调了316.87%。这一增长率并不是最高的, User Interface as a Service增长率就达到234.33%。但是从搜索词条数量上来看, SPI的优势明显, 说明SPI模型已经深入人心, 仍然占有高比重。综上, SPI模型虽然在词条数量上独占鳌头, 但其增长幅度却明显减缓, 更多新兴的云服务增长势头强劲, 很可能会反超SPI成为主要云服务。

图2 SPI时间序列图

陡增型云服务接下来仍会呈现增长趋势, 但可能增长幅度会减缓; 脉冲型云服务未来发展前景并不明朗, 可能会出现先降低再上升的趋势, 也可能下滑, 甚至停滞不前; 波动型云服务由于受到环境的影响, 同样发展不稳定。云服务的增长趋势说明云服务经历了从新的技术到应用形式的蜕变, 企业也开始从“以产品为中心”向“以用户为中心”过渡。今后云服务可能向着更集中的方向发展, 特定行业会有量身定做的云服务。

5 结 语

(1) SPI中Infrastructure as a Service将会呈现下降趋势, 而Platform as a Service和Software as a Service则会出现持续增长趋势。在索引词条数目上, Software as a Service占绝对优势, 跟随其后的是Platform as a Service。追溯其中缘由, 可能是因为IaaS已经具体化并开始分化成其他应用类的XaaS, 虽说这个概念词条数量下降, 但带动了其他云计算服务蓬勃发展。而SaaS与中小企业联系紧密, 导致词条数目剧增。IaaS亟待解决的问题是数据安全和保密及系统可靠性, 带宽不足和访问异常将会影响PaaS的顺利使用和共享。所以, SPI要想顺利走下去, 还需要攻克许多难关。

(2) 云服务的发展引起了图书情报界的关注和重视。SaaS的迅猛增长预示着更多软件提供商会不断尝试软件提供模式, 由于技术成熟, 费用降低, 更多的图书馆将有能力通过SaaS实现业务的自动化管理。云服务的发展同样会对存储带来革新: 分布式和非结构化的数据存储模式, 将操作系统、服务和用户数据都保存在云计算的存储体系中, 只需在一个地方处理数据, 就可以实现共享。

云计算的出现彻底打破了地域的概念, 需要在网络资源存储、资源共享和网络安全监管等方面形成完备的监督和法律体系。在云计算与大数据日益结合的情况下, 用户隐私保护是不容回避的一大挑战。如果在发挥应用虚拟化和数据资源整合的优势的前提下能够切实保障信息的安全性, 那么云服务将会如同计算机一样引领潮流, 彻底改变人们的生活。

参考文献
[1] Wikipedia. JohnMcCart[EB/OL]. (2013-12-26). [2014-02-18]. http://en.wikipedia.org/wiki/John_McCarthy_(computer_scientist. [本文引用:1]
[2] Salesforce [EB/OL]. [2014-02-18]. http://www.salesforce.com/company/. [本文引用:1]
[3] IBM. Google and IBM Announce University Initiative to Address Internet-Scale Computing Challenges [EB/OL]. (2007-10-08). [2014-02-18]. http://www-03.ibm.com/press/us/en/pressrelease/22414.wss. [本文引用:1]
[4] Gartner. Gartner Says the Personal Cloud will Replace the Personal Computer as the Center of Users’Digital Lives by 2014 [EB/OL]. (2012-03-12). [2014-02-18]. http://www.gartner.com/newsroom/id/194731. [本文引用:1]
[5] Burns C. The Cloud Service Explosion [EB/OL]. (2012-08- 13). [2014-02-18]. http://www.networkworld.com/supp/2012/enterprise4/081312-ecs-cloud-services-261195.html. [本文引用:1]
[6] 黎春兰, 邓仲华. 云计算环境下的信息资源共享研究[J]. 中国信息界, 2011 (12): 66-70.
(Li Chunlan, Deng Zhonghua. Sharing of Information Resourses in the Cloud Computing Environment[J]. China Information Times, 2011 (12): 66-70. ) [本文引用:1] [CJCR: 0.3621]
[7] Sims K. IBM Introduces Ready-to-Use Cloud Computing [N/OL]. [2014-02-18]. http://www-03.ibm.com/press/us/en/pressrelease/22613.wss. [本文引用:1]
[8] Wikipedia. Google App Engine [EB/OL]. (2014-02-11). [2014- 02-18]. http://en.wikipedia.org/wiki/Google_App_Engine. [本文引用:1]
[9] Wikipedia. Windows Azure [EB/OL]. (2014-02-11). [2014-02- 18]. http://en.wikipedia.org/wiki/Windows_Azure [本文引用:1]
[10] Pring B, Brown R H, Frank A, et al. Forecast: Sizing the Cloud;Understand ing the Opportunities in Cloud Services[R/OL]. [2009-03-18]. https://img2.insight.com/graphics/uk/content/microsites/cloud/forecast_sizing_the_cloud_un_166525.pdf. [本文引用:1]
[11] Leavitt N. Is Cloud Computing Really Ready for Prime Time[J]. IEEE Computer Society, 2009, 42(1): 15-20. [本文引用:1]
[12] Armbrust M, Fox A, Griffith R, et al. A View of Cloud Computing[J]. Communications of the ACM, 2010, 53(4): 50-58. [本文引用:1] [JCR: 2.511]
[13] 刘炜. 图书馆需要一朵怎样的“云”?[J]. 大学图书馆学报, 2009, 27(4): 2-6.
(Liu Wei. How Libraries Uprising with the Cloud Computing[J]. Journal of Academic Libraries, 2009, 27(4): 2-6. ) [本文引用:1] [CJCR: 3.739]
[14] 冯宇彦, 赵占雪, 陈婉婷. 云服务的解决方案探索[J]. 信息技术与标准化, 2011(9): 68-75.
(Feng Yuyan, Zhao Zhanxue, Chen Wanting. The Exploration of the Solution for Cloud Service[J]. Information Technology & Stand ardization, 2011 (9): 68-75. ) [本文引用:1] [CJCR: 0.2618]
[15] 王燕. 应用时间序列分析[M]. 北京: 中国人民大学出版社, 2005.
(Wang Yan. Applied Time Series Analysis[M]. Beijing: China Renmin University Press, 2005. ) [本文引用:1]
[16] Box G E P, Jenkins G M, Reinsel G C. Time Series Analysis: Forecasting and Control [M]. Wiley, 2008. [本文引用:2] [JCR: 4.186]
[17] 杜强, 贾丽艳. SPSS统计分析——从入门到精通[M]. 北京: 人民邮电出版社, 2012.
(Du Qiang, Jia Liyan. SPSS Statistical Analysis——From Entry to Master[M]. Beijing: Post &Telecom Press, 2012. ) [本文引用:3]
[18] 陈远, 王菲菲. 基于时间序列的电子商务市场预测系统研发[J]. 情报科学, 2009, 27(12): 1821-1833.
(Chen Yuan, Wang Feifei. E-commerce Market Forecast System R&D Based on Time-series[J]. Information Science, 2009, 27(12): 1821-1833. ) [本文引用:1] [CJCR: 1.112]