王伟军, 刘凯: 提出研究思路, 设计研究方案;
鲍丽倩: 数据分析和论文起草;
刘凯: 数据采集和清洗;
王伟军, 鲍丽倩, 刘凯: 论文修订。
借助云服务概念簇数量的变化探究云服务当前的发展状况及其未来趋势。
【方法】逐一抓取近12年Google搜索引擎收录云服务概念簇的词条数, 采用时间序列分析法进行研究。
【结果】云服务可分为陡增型、脉冲型和波动型三类。陡增型云服务会继续增长, 但增长趋势会减缓; 脉冲型云服务出现增长趋势的可能性不大; 波动型云服务未来的发展走向不稳定。
【局限】只从时间维度来分析云服务的发展趋势, 如果要获取更加可靠的结果, 需要结合政治、经济、社会等环境因素共同考量。
【结论】云服务从实验室迈入市场, 今后可能向着服务集中化管理方向发展, 特定行业会有个性化定制的云服务。
Explore the current status and development trends in future with the change of numbers of cloud services.
[Methods]Grab entries of cloud service concepts of Google search engine in last 12 years, using time series analysis.
[Results]Cloud services can be divided into steep-type, pulse-type and wave-type categories. Steep-type cloud service will continue to grow, but the growth trend will slow down. It is unlikely for pulse-type cloud service to grow.The development trend of pulse-type cloud service is instability.
[Limitations]Analyze trends of cloud services only from the time dimension.
[Conclusions]From laboratory to market, cloud services may develop in the direction of centralized management services in the future, there will be industry-specific customization of cloud services.
早在20世纪60年代, 麦卡锡(John McCarthy)就提出预测: 计算迟早有一天会变成一种公共基础设施[
云服务应用已经深入人们生活的各个领域, 正在引发IT业的新变革。它的发展加速企业信息化、推助电子商务的发展、优化互联网资源配置, 对互联网产业、信息技术及电子商务领域影响深远, 所以分析云服务近段时间的发展情况和预测今后的发展态势是极其必要的。
云计算近几年发展迅猛, 与此同时以“-aaS”为后缀的云服务也取得了爆炸式增长, 被统称为“XaaS”概念簇[
在产业界, 云服务从出现就吸引了各界的关注。2007年, 亚马逊的AWS、IBM和Google联合进行的蓝云计划, 亚马逊开IaaS先河推出了“弹性云”模式[
在学术界, 国内外已经有学者对云服务发展趋势做了相关研究, 主要视角可集中分为以下几类:
(1) 通过云服务的市场份额、市场价值等经济因素的变化来预测未来走势。Pring等据此预测SaaS成为云服务中的领先指标, 并且将会被云应用所代替, IaaS及设施提供者对云服务的影响有望超过目前预期[
(2) 对云服务相关概念研究现状考察后作出预测。Leavitt通过对云服务基础结构、实施、应用分类、性能和可靠性、安全和隐私等问题的阐述来确定未来的发展趋势, 预测在未来5年内, 云计算服务将成为中小型企业外包服务的解决方案, 而大型企业则需要建设大型数据中心来获得高负载能力[
(3) 云服务在图书馆学领域的探索。刘炜提出一套由云服务检索方式、云服务器构架、云共享相结合的检索服务方式[
(4) 云服务相关技术的预测。冯宇彦等从云服务的技术架构切入, 通过4种适配器将物理机、虚拟机、网络设备和存储设备整合, 建立统一的资源池[
上述研究成果固然丰富, 涉及经济学、计算机科学、情报学等领域, 不过遗憾的是研究大多只是对SPI进行预测, 而无法得知其他概念簇的发展态势。在XaaS向商务、社会领域融合的背景下, 以技术为基础的SPI并不能代表整个云服务市场, 因此, 现有的研究无法对云服务进行更为细致的趋势预测。针对这一问题, 本文将云服务概念簇展开进行详尽的研究。
时间序列分析是一种重要的现代统计分析方法, 研究一组按某种(如时间)顺序排列的动态数据的统计规律[
搜索引擎的词条创建数可以直观体现每个XaaS的产生时间、关注度和变化趋势, 借此来预测概念簇未来的发展趋势。为确保样本来源范围足够广、样本量足够大, 本研究选择Web搜索引擎作为数据采集工具。首先使用“SaaS、PaaS、IaaS和Ecosystem”4个关键词对Google、Bing、Yahoo、Lycos、Baidu 这5种知名的搜索引擎进行预测试。按搜索引擎的不同划分5个组, 检全率用4个关键词的某个搜索结果条目之和与5组全部结果条目总量的比例进行表示, 而检准率的确定则采用人工判定的方式计算前10页中命中条数与前10页总条数的比例。比对测试结果发现, Yahoo、Lycos和Baidu搜索结果广度不够而Bing的精度不够, 同时考虑到Google对学术数据库也有较好的涵盖, 因此最终选取Google作为唯一的数据来源采集工具。
随后采用‘XaaS’ AND ‘as a service’的检索词形式进行搜索, X取值分别由A至Z, 通过手工逐一搜集每个XaaS的中文名称、含义、搜索量、可发现的最早提出日期、最早提出者及出处并导入数据库。最终, 整理出与云计算紧密相关的XaaS概念形式共152个。最后利用笔者开发的蜘蛛爬虫工具, 采集了Google上所有概念词从诞生至今的词条数量, 作为时间序列分析的数据来源。创建词条数可以直观表明该概念的使用频率及深度, 从而代表了它在云服务领域的流行趋势。
考虑到时间序列随时间动态、整体的统计规律性, 对数据进行预处理是非常有必要的。预处理过程既能够使序列随时间变化的特征体现更加明显, 有利于模型选择, 也能使得数据满足模型的要求。
由于部分云服务概念比较生僻, 致使网络搜索词条数出现为零的情况, 为保证结果的相对准确, 对三年以上为无记录的概念进行删除。此外, SPI模型服务与其他XaaS服务数量级相差很大(后文专门研究该模型的序列图), 也在研究云服务整体发展脉络时予以删除, 最后剩余93个XaaS云服务概念。将其导入SPSS 21.0中进行时间序列分析, 在对有缺失值的数据进行修补, 以及将数据资料定义为相应的时间序列之后, 得出观察数据的时间序列图, 如图1所示:
纵观图1中词汇的走向, XaaS概念簇诞生于2000年, 经历2000年- 2005年的孕育期后, 于2006开始爆炸式增长。该趋势完全符合云服务的生长模式, 这是因为云服务是依托云计算的大数据支撑应运而生的, 而且云服务必须要基于分布式系统和可扩展性机器等环境才能发挥效用, 其取用方便、费用低廉等优点也令增长成为必然。
根据序列图曲线呈现不同的外形特点, 可以将XaaS划分为三种类型:
(1) 陡增型。陡增型指的是序列图曲线首先基本与时间轴平行, 而后在某一个时间段出现大幅度上升。这类XaaS在2000年- 2005年之间几乎为零增长, 从2006年- 2008年起呈现几何倍数增长, 在短短几年内达到高峰。以Access as a Service为代表的应用类服务构成此类云服务概念簇的主体。陡增型揭示出XaaS蓬勃生长的原因, 即云计算发展使得应用类服务变得快捷和便利, 各种应用性服务大量出现且迅猛增长。
(2) 脉冲型。脉冲型是指序列图呈现1-2个脉冲, 走向存在明显的起伏波动, 突出表现为一个阶段的上涨之后出现下滑趋势。结合此类概念的涵义及背景, 可以发现脉冲型云服务的两大特点: 一是与计算机软硬件紧密相关, 如Database as a Service; 二是与特定企业紧密相关, 如Yahoo as a Service便直接以企业命名。互联网产品更新换代速度较快, 相关服务风靡一时之后的销声匿迹, 就符合这种起伏。专有名词命名的云服务, 由于用户的类型和数量非常有限, 也会出现脉冲式的增长态势。
(3) 波动型。此类序列图走势起伏频繁, 而且相隔年份的数量相差悬殊。本类概念簇走向极不稳定, 序列图至少出现三次以上的升降趋势。波动型的云服务并不常见且多与商业相关, 如Business Integration as a Service。对词条进行深入分析后, 发现引发波动的主要原因在于这类云服务模式易受到当时政治、经济、贸易等外部环境因素的影响, 从而起伏较大。从图1中可见, 陡增型占比最大, 其次是脉冲型, 波动型最小。具体的数量分布如表1所示:
![]() | 表1 三种类型的数量分布 |
由云计算的序列图观察得到XaaS没有呈现季节性变化趋势, 不需要进行季节差分处理, 采用指数平滑中的无季节性模型——Brown线性趋势模型和Holt线性趋势模型及ARIMA模型。
指数平滑法最先由Holt在1958年提出, 它最初只应用于无趋势、非季节作为基本形式的时间序列的分析, 后经Brown、Winter等统计学家的深入研究和发展, 使指数平滑设计的数据内部构成更丰富[
Brown线性趋势的基本原理是将一次和二次平滑值之差加在一次平滑值上, 从而对趋势进行修正, 计算公式如下[
![]() | (1) |
其中:
Holt平滑法原理与布朗平滑法相似, 只是不用二次指数平滑, 而是对趋势直接进行平滑, 计算公式如下[
![]() | (2) |
其中, t为当期,
ARIMA(求和自回归移动平均模型)是由Box 和Jenkins于20 世纪70 年代初提出的著名时间序列预测方法[
笔者从这三类中选择有代表性的云服务进行时间序列分析, 依据序列图的分析和专家建模分别采用不同的模型, 如表2所示:
![]() | 表2 模型选择及预测数据表 |
(1) 指数平滑法。“模型描述”可知当前模型所使用的分析变量和方法。“模型拟合”给出了包括平稳R方在内的8个拟合优度统计量。“模型统计量”表格显示平稳R方统计量的取值都大于0(0.613, 0.274, 0.135, 0.470, 0.116), 说明当前Brown/Holt线性模型要优于基本的均值模型。关于残差的自相关(ACF)和偏自相关(PACF)序列图都没有明显趋势特征(拖尾或截尾)。由观测序列, 拟合序列在图中高度相近的特点, 可以判断使用的模型是较为合理的。预测索引词条数分别为Backup as a Service(17 763), Database as a Service(8 336), User Interface as a Service(628), Filtering as a Service(13), Business Integration as a Service(39)。
(2) ARIMA。模型参数输出中t统计量的显著性(sig列)显示模型参数都非常显著地为0。残差序列图也显示都没有明显趋势特征(拖尾或截尾)。由观测序列, 拟合序列在图中高度相近的特点, 可以判断ARIMA使用的模型是较为合理的。预测索引词条数为ERP-as-a-Service(1 074)。
SPI作为基础云服务模型, 不能忽视它对整个云服务的影响。为了探测SPI模型是否指引云服务的未来的走向, 同样也对SPI模型进行时间序列分析。观之SPI模型中三个序列图走向(见图2), 除Software as a Service从2007年开始上涨趋势明显外, Infrastructure as a Service和Platform as a Service在2010年之后才凸显涨幅。由表2的预测数据可得: 就增长率而言, 预测SPI模型中检索词条最高的增长率为177.57%(Software as a Service), 同比上一年增长率下调了316.87%。这一增长率并不是最高的, User Interface as a Service增长率就达到234.33%。但是从搜索词条数量上来看, SPI的优势明显, 说明SPI模型已经深入人心, 仍然占有高比重。综上, SPI模型虽然在词条数量上独占鳌头, 但其增长幅度却明显减缓, 更多新兴的云服务增长势头强劲, 很可能会反超SPI成为主要云服务。
陡增型云服务接下来仍会呈现增长趋势, 但可能增长幅度会减缓; 脉冲型云服务未来发展前景并不明朗, 可能会出现先降低再上升的趋势, 也可能下滑, 甚至停滞不前; 波动型云服务由于受到环境的影响, 同样发展不稳定。云服务的增长趋势说明云服务经历了从新的技术到应用形式的蜕变, 企业也开始从“以产品为中心”向“以用户为中心”过渡。今后云服务可能向着更集中的方向发展, 特定行业会有量身定做的云服务。
(1) SPI中Infrastructure as a Service将会呈现下降趋势, 而Platform as a Service和Software as a Service则会出现持续增长趋势。在索引词条数目上, Software as a Service占绝对优势, 跟随其后的是Platform as a Service。追溯其中缘由, 可能是因为IaaS已经具体化并开始分化成其他应用类的XaaS, 虽说这个概念词条数量下降, 但带动了其他云计算服务蓬勃发展。而SaaS与中小企业联系紧密, 导致词条数目剧增。IaaS亟待解决的问题是数据安全和保密及系统可靠性, 带宽不足和访问异常将会影响PaaS的顺利使用和共享。所以, SPI要想顺利走下去, 还需要攻克许多难关。
(2) 云服务的发展引起了图书情报界的关注和重视。SaaS的迅猛增长预示着更多软件提供商会不断尝试软件提供模式, 由于技术成熟, 费用降低, 更多的图书馆将有能力通过SaaS实现业务的自动化管理。云服务的发展同样会对存储带来革新: 分布式和非结构化的数据存储模式, 将操作系统、服务和用户数据都保存在云计算的存储体系中, 只需在一个地方处理数据, 就可以实现共享。
云计算的出现彻底打破了地域的概念, 需要在网络资源存储、资源共享和网络安全监管等方面形成完备的监督和法律体系。在云计算与大数据日益结合的情况下, 用户隐私保护是不容回避的一大挑战。如果在发挥应用虚拟化和数据资源整合的优势的前提下能够切实保障信息的安全性, 那么云服务将会如同计算机一样引领潮流, 彻底改变人们的生活。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|