数据分析与知识发现, 2020, 4(2/3): 134-142 doi: 10.11925/infotech.2096-3467.2019.0721

专辑

基于深度迁移学习的业务流程实例剩余执行时间预测方法*

刘彤, 倪维健,,, 孙宇健, 曾庆田

山东科技大学计算机科学与工程学院 青岛 266510

Predicting Remaining Business Time with Deep Transfer Learning

Liu Tong, Ni Weijian,,, Sun Yujian, Zeng Qingtian

College of Computer Science and Engineering, Shandong University of Science and Technology, Qingdao 266510, China

通讯作者: 倪维健,ORCID:0000-0002-7924-7350,E-mail:niweijian@gmail.com

收稿日期: 2019-06-20   修回日期: 2019-11-20   网络出版日期: 2020-02-25

基金资助: *本文系国家自然科学基金项目“面向用户群组的结构化推荐技术及其应用研究”.  61602278
国家自然科学基金项目“应急预案流程图谱自动建模方法及其在场景式诊断中的应用”.  71704096
青岛社会科学规划项目“青岛市城市应急预案数字化自动建模及诊断方法”的研究成果之一.  QDSKL1801122

Received: 2019-06-20   Revised: 2019-11-20   Online: 2020-02-25

摘要

【目的】 预测正在执行中的业务流程实例的剩余执行时间,为业务流程优化提供决策支持。【方法】 提出一个业务流程实例剩余执行时间预测的深度迁移学习框架,该框架使用多层循环神经网络构建预测模型,并设计事件表示学习方法为神经网络提供预训练输入。【结果】 在5个公开真实数据集上进行实验,结果表明本文方法与现有最优的基于流程模型和深度学习的方法相比,预测误差平均降低约11%。【局限】 本文方法可解释性较差,这在一定程度上制约其现实应用场景。【结论】 本文提出的深度迁移学习框架和事件表示学习方法能有效提升业务流程实例剩余执行时间预测的准确性。

关键词: 剩余执行时间预测 ; 业务流程实例 ; 深度学习 ; 迁移学习

Abstract

[Objective] The paper tries to predict the remaining execution time of ongoing business process, aiming to provide better decision making support for process optimization.[Methods] We proposed a transfer learning framework for remaining time prediction, which constructed the prediction model with multi-layers recurrent neural networks. Then, we used representation learning method for events to pre-train the prediction model.[Results] We examined our model with five publicly available datasets and found the proposed approach outperforms the existing ones by 11% on average.[Limitations] The proposed model is of low interpretability, which limits its applications for real business management cases.[Conclusions] The proposed approach could help us predict remaining task processing time.

Keywords: Remaining Time Prediction ; Business Process Instance ; Deep Learning ; Transfer Learning

PDF (998KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘彤, 倪维健, 孙宇健, 曾庆田. 基于深度迁移学习的业务流程实例剩余执行时间预测方法*. 数据分析与知识发现[J], 2020, 4(2/3): 134-142 doi:10.11925/infotech.2096-3467.2019.0721

Liu Tong. Predicting Remaining Business Time with Deep Transfer Learning. Data Analysis and Knowledge Discovery[J], 2020, 4(2/3): 134-142 doi:10.11925/infotech.2096-3467.2019.0721

1 引 言

业务流程管理(Business Process Management, BPM)是一种重要的商业智能技术,其旨在提供规范化的技术和工具对生产流程、行政申请流程、人事处理流程等各类业务流程进行分析、建模、监控和持续优化[1]。业务流程实例剩余执行时间预测[2,3](简称剩余时间预测)是业务流程管理领域中的一类重要任务,顾名思义,其预测目标是正在执行中的业务流程实例的剩余执行时间。对于一个正在执行中的业务流程实例,如果能够准确预估其剩余执行时间,那么业务流程管理者可以采取更为有效的资源调度等执行策略,以提升业务系统的整体性能。

传统的剩余时间预测方法主要基于业务流程模型(如变迁系统[2,4]、随机Petri网[4]、流程树[5]等)预测业务流程实例的剩余执行时间。近年来,机器学习和深度学习技术也已被应用于剩余时间预测任务[6,7],现有研究结果表明,基于机器学习特别是深度学习的剩余时间预测方法,在大多数情况下比基于业务流程模型的方法能够取得更好的预测效果[8]

然而,剩余时间预测任务的特殊性给深度学习方法的有效应用带来了一定挑战。在剩余时间预测任务中,主要采用根据时间戳或序列索引提取历史流程实例的前缀序列的方式构建训练数据,这使得训练数据将由不同长度的实例前缀构成,而不同长度的实例前缀之间存在一定差异。首先,短实例前缀通常对应刚开始执行的流程实例,故剩余时间不确定程度较高,而长实例前缀则通常对应即将执行结束的流程实例,剩余时间不确定程度相对较低;其次,实例前缀数量通常随着长度增加呈现显著下降的趋势,故不同长度的实例前缀数量也有很大差异。现有的基于机器学习的剩余时间预测方法大多在所有实例前缀上训练统一训练模型,因而难以很好地体现不同长度实例前缀的差异,并对预测效果造成负面影响。

基于上述考虑,本文提出一种基于深度迁移学习的剩余时间预测方法。相比于已有工作,本文方法的创新点主要体现在如下方面:

(1)根据前缀长度对所有历史流程实例前缀进行划分,在不同长度的实例前缀子集上分别训练剩余时间预测模型,提升预测的针对性。为充分考虑不同长度实例前缀之间的相关性,并且克服不同长度实例前缀的数量差异,使用迁移学习的方式训练剩余时间预测模型。

(2)充分考虑参与流程实例的各个事件的时序特性,设计了一种新的时序事件表示学习方法,得到能够反映语义信息的事件向量,为剩余时间预测模型构建预训练的事件向量表示,克服传统独热编码无法反映活动内在语义信息的不足,提升模型训练效果。

2 相关工作

剩余时间预测问题由van der Aalst等首次系统提出[2],其在业务流程管理框架下对剩余时间预测任务进行形式化定义,给出一系列评估指标,并提出一种基于多抽象层次变迁系统的剩余时间预测方法。后续一些研究者对该方法进行了改进,比如:Polato等提出数据感知的变迁系统,为每个状态节点构建朴素贝叶斯分类模型,并为每个变迁(状态节点连边)利用支持向量回归算法构建剩余时间预测模型9]。除了使用变迁系统外,一些研究者常使用其他业务流程模型进行剩余时间预测,比如非马尔科夫随机Petri网[4]、流程树[5]等。利用业务流程模型进行剩余时间预测的优势是能够利用形式化的流程模型构建业务流程的抽象视图,特别是能够对特殊的业务场景进行有效建模,比如:Jimenez-Ramirez等利用声明式流程模型解决多实例、资源约束等复杂场景下的剩余时间预测问题[10];Senderovich等利用队列流程模型解决多个服务流程处于存在排队状态时的剩余时间预测问题[11]。然而,基于业务流程模型的方法也存在很多局限,由于业务流程模型的形式化较强,难以有效处理真实世界中的大规模高噪音事件日志;此外,业务流程模型往往需要事先指定,这限制了该类方法的实用场景。

近年来,基于机器学习特别是深度学习的剩余时间预测方法成为该领域的研究热点。这类方法优势是对噪音的鲁棒性较强,而且能够高效处理大规模事件日志,代表性工作有:Bevacqua等使用聚类技术从事件日志中发现业务流程的变种,之后使用回归技术在不同变种的流程执行实例上构建剩余时间预测模型[12]。传统机器学习方法的有效性往往依赖于实例特征的设计,一些研究者针对剩余时间预测任务中的特征工程问题开展研究,比如:Senderovich等在设计流程实例特征时同时考虑了实例自身的属性、实例内部事件的属性,以及实例外部的上下文信息[13];Leontjeva等通过设计序列编码方案构建流程实例特征[14]。为克服特征工程的困难,最近有研究者开始尝试使用深度学习构建剩余时间预测模型,实现流程实例特征的自动学习,代表性的工作有:Verenich等使用长短期记忆循环神经网络(Long-Short Term Memory,LSTM)训练剩余时间和后续活动的联合预测模型,取得了比基于业务流程模型和传统机器学习方法更优的预测效果[8]。从现有的预测效果而言,深度学习在剩余时间预测任务上有着广阔的应用前景。

3 剩余时间预测任务描述

首先给出剩余时间预测任务相关的基本概念,在此基础上对该任务进行形式化描述。

定义1 事件:是业务系统中的一个执行步骤,可以被简单表示为二元组 e=(activity,time),其中, activity是该事件中执行的活动类型,time是该事件的执行时间。

定义2 流程实例:是业务系统的一次完整执行,可以简单表示为一个关于事件的有限非空序列 σ=<e1,,e|σ|>,其中, ei是该流程实例中执行的第i个事件, |σ|表示该流程实例中执行事件的数量。

定义3 流程实例前缀:代表业务系统的一次部分执行,给定某流程实例 σ=<e1,,e|σ|>,其一个前缀可以表示为 σ(k)=<e1,,ek>(1k|σ|)

定义4 流程实例前缀剩余时间:为其所在完整的流程实例中未被执行的事件的执行时间之和,如公式(1)所示。

Rσ(k)=i=k+1|σ|ei.time

定义5 事件日志:记录了业务系统的历史执行情况,是流程实例的集合,可以表示为 L={σ1,,σ|L|}

以机票预订业务为例,一个机票预订实例可能包括航班查询、空座查询、座位保留、订单确认、订单支付、机票生成等活动,而且某些活动在一个流程实例中可能被执行多次,比如用户修改航班信息后,空座查询、座位保留等活动需要被再次执行。活动的一次执行形成一个事件,每个事件均具有特定的执行时间。

需要说明的是,上述定义仅针对简化情形下事件及流程实例。通常,事件除了具有活动类型和执行时间两个基本属性外,可能还会有启动时间、结束时间等属性;流程实例除了包括事件有限非空序列外,也会具有执行者、所需资源等额外属性。本文仅关注如何根据事件和流程实例的基本信息构建剩余时间预测模型,如何考虑更多属性将作为后续研究开展。

定义6 剩余时间预测:给定某业务系统,令该系统的事件空间为 Ε,则流程实例及前缀空间可表示为 Ε*,剩余时间预测任务的目标是构建映射函数 f:Ε*R+,利用该函数可以预测给定流程实例前缀的剩余时间。

在机器学习框架下,剩余时间预测任务主要由训练和应用两个阶段构成。训练阶段的目标是利用事件日志中记录的历史流程实例集合学习剩余时间预测函数 f;在应用阶段,利用 f预测某正在执行的流程实例的剩余执行时间。

训练阶段是剩余时间预测任务的核心部分。首先,利用事件日志L生成训练集,通常主要采取两种方式:

(1)指定某时间戳阈值 t0,截取所有历史流程实例在 t0前执行的部分作为训练样本,如公式(2)所示。

Dpoint={(σ(k),R(σ(k)))|σ=<e1,,e|σ|>L,ek.endt0,ek+1.start>t0}

其中,startend表示事件的开始时间和结束时间。换言之,这种训练数据生成方式需要事件日志中记录了每个事件的开始时间和结束时间。

(2)指定前缀长度范围 KN+,截取符合该范围的所有历史流程实例前缀作为训练样本,如公式(3)和公式(4)所示。

Dlen-k=σ(k),Rσ(k)σL,k<|σ|
Dlen=kKDlen-k

依据特定的优化目标学习映射函数 f。通常使用的优化目标是训练集上的预测误差,并辅以必要的正则项以克服学习过程中的过拟合问题,如公式(5)所示。

f*=argminfF(σ,t)Dpoint/lenf(σ)-t2+Ω(f)

4 剩余时间预测方法

4.1 基于迁移学习的剩余时间预测框架

本文提出的剩余时间预测方法的总体框架如图1所示。

图1

图1   剩余时间预测总体框架

Fig.1   Framework of Remaining Time Prediction


首先,指定实例前缀长度范围[min,max],采用公式(3)的训练数据生成方式,并将训练集进行划分,每个训练集分别对应不同长度的实例前缀;之后,在各个训练集上分别训练针对不同长度实例前缀的剩余时间预测模型。

由于不同长度实例前缀在数量和剩余时间不确定性上的差异,相比于利用所有实例前缀训练单一预测模型,采用多个预测模型能够有效提升剩余时间预测的针对性[14]。然而,在各个训练集上单独训练剩余时间预测模型往往存在很多困难。

(1)根据前缀长度将训练集进行划分后会导致各个训练集内的实例前缀数量大大降低,特别是在现实事件日志中,流程实例数量随着其长度呈现不断下降的趋势,这导致较长前缀长度的训练集将更小,而深度学习方法往往需要较大数量的训练数据,故在各个训练集上难以单独得到准确的预测模型;

(2)不同前缀长度的训练集可以互为补充,长度为n的实例前缀包含所有长度小于n的实例前缀,故较短实例前缀的预测模型能够对训练较长实例前缀的预测模型提供有益信息,在各个训练集单独训练模型则忽视了不同长度实例前缀之间的内在关联。

因此,采用迁移学习方法训练多个剩余时间预测模型:首先在数量最多的最短实例前缀(长度为min)上训练模型;之后在训练更长实例前缀的模型时,将短实例前缀模型的参数作为初始值,通过精调的方式利用长实例前缀数据进行模型训练,直至训练得到最长实例前缀(长度为max)上的模型。这种基于迁移学习的模型训练方式能够充分利用相近长度实例前缀的内在关联,克服长实例前缀数据量少的问题,同时能够加快模型训练的收敛速度。

4.2 多层循环神经网络模型

在基于迁移学习的剩余时间预测框架下,应用多层循环神经网络(Multi-layers Recurrent Neural Networks, Multi-layers RNN)构建针对各个前缀长度的剩余时间预测模型,基本网络结构如图2所示,本文具体采用了双层RNN。

图2

图2   双层循环神经网络基本结构

Fig. 2   Architecture of Bi-layer RNN


该模型以轨迹前缀 σ(k)=<e1,ek>作为输入,每个事件 et(1tk)的向量表示输入至第一层RNN的各个神经元。RNN神经元的基本功能是接收轨迹前缀当前时刻的事件向量以及上一时刻神经元输出的隐向量作为输入,对其进行非线性变换后得到当前时刻输出的隐向量。第二层RNN的结构与第一层相同,主要区别在于其每个神经元以第一层RNN中对应神经元输出的隐向量作为输入。LSTM[15]和GRU (Gated Recurrent Unit)[16]是RNN神经元的两种常见实现方式。一些研究者在多个序列建模任务上对LSTM和GRU等RNN神经元方式进行了对比实验[17],结果表明GRU和LSTM在大多数任务上的效果没有显著差异,但是由于GRU对LSTM的门机制进行了简化,因此在训练时间上更有优势。

以第二层RNN最后一个神经元的输出作为双层RNN的最终输出,可以将其看作对整个实例前缀的编码。双层RNN之后接一个多层感知机(Multilayer Perceptron, MLP)作为回归模型计算输入实例前缀的剩余时间。

4.3 基于事件表示学习的预训练

在自然语言处理领域中,研究者发现词的向量表示对于深度学习模型的训练效果有直接的影响[9,18],因此提出预训练的概念,目标是为深度学习模型事先训练高质量的词向量表示。与自然语言处理领域类比,业务流程管理领域中的流程实例与自然语言处理领域中的句子均是一种序列数据,事件类似于单词,是流程实例的组成单元。可以认为,事件表示的质量同样会影响剩余时间预测模型的效果。因此,本文提出一种事件表示学习方法,为事件日志中的每个事件得到高质量的向量表示,作为剩余时间预测模型的预训练输入。

根据事件的定义,事件相关的活动及其执行时间是事件的必备属性,故将事件执行的活动及其执行时间作为事件的标识,在此基础上计算事件向量。由于事件执行时间是连续值,因此需先对其进行离散化处理,基本思想是对事件对应活动所有可能的执行时间进行等分。假设划分数量为 N,离散化后的事件 e执行时间如公式(6)所示。

t˜(e)=e.time-min(e.activity)max(e.activity)-min(e.activity)×N

其中, e.time是事件e的连续值执行时间, max(e.activity)min(e.activity)分别表示活动 e.activity在事件日志中可能的最长执行时间和最短执行时间。

因此,事件表示学习的目标是对于业务系统中的所有活动 aA及其离散化执行时间 t1,2,,N,得到向量 θa,tRd

借鉴自然语言处理领域中基于负采样的Skip-Gram词向量学习方法[19],基本思想是在事件日志中频繁出现在同一实例的事件具有相似的向量表示。给定事件日志L,事件向量表示学习问题可以被抽象为优化问题,如公式(7)所示。

maxO(L)=logσLt=1|σ|e'context(et)p(e'|et)e'neg(et)1-p(e'|et)

优化目标的现实含义是根据当前事件 et预测上下文事件 e'context(et)的概率尽可能高,即具有相似的向量表示。同时为增强事件向量的辨识能力,要求预测非上下文事件 e'neg(et)的概率尽可能低。 neg(et)表示对事件 et进行负采样得到的事件集合,通常可在事件全集中进行随机采样获得。 context(et)表示事件 et在所在轨迹 σ中的上下文事件,给定窗口长度参数l,可表示如公式(8)所示。

context(et)={et-l,,et-1,et+1,,et+l}

事件间的条件概率由对应事件向量点积的Sigmoid函数计算,如公式(9)所示。

p(e'|e)=11+exp(-θe.a,t˜(e)Tθe'.a,t˜(e'))

公式(7)所示优化问题可使用随机梯度下降法求解,其主要优势是具有较快的收敛速度,且对于海量日志具有较好的可扩展性。随机梯度下降法采用迭代求解方式,事件日志中的任一事件e和它的一个上下文事件或负采样事件 e'产生一次迭代,在每次迭代中,计算优化目标关于ee'中的活动向量和时间间隔向量的梯度,之后根据梯度更新相应向量。具体而言,针对特定事件对 e,e',优化目标的梯度计算如公式(10)和公式(11)所示。其中,上下文事件为“+”,负采样事件为“-”。

Oe,e'θe.a,t˜(e)=p(e'|e)1-p(e'|e)θe'.a,t˜(e')
Oe,e'θe'.a,t˜(e')=±p(e'|e)1-p(e'|e)θe.a,t˜(e)

5 实验研究

5.1 实验数据

本文实验使用来自4TU Center for Research Data(①https://data.4tu.nl/repository/collection:event_logs_real.)的公开事件日志数据集,分别是:

(1)BPIC2012_A:某财政机构贷款申请审批日志。

(2)BPIC2012_O:同数据集(1),但仅包含贷款审批状态变更记录。

(3)BPIC2012_W:同数据集(1),但仅包含贷款审批涉及资源的状态变更记录。

(4)Helpdesk:来源于某票务管理系统的后台日志。

(5)Hospital_Billing:来源于某医院ERP系统中记录的出院结算流程日志。

这5个数据集的统计信息如表1所示。

表1   数据集统计信息

Table 1  Statistics of Datasets

数据集轨迹数量事件数量活动数量轨迹最大长度轨迹最小长度
BPIC2012_A13 08773 02210103
BPIC2012_O5 01541 7287394
BPIC2012_W9 658147 45061531
Helpdesk3 80413 7109141
Hospital_Billing100 000451 359182171

新窗口打开| 下载CSV


5.2 对比实验

(1) 基准方法

选择经典的流程模型驱动方法和数据驱动方法作为基准方法。流程模型驱动方法选择基于变迁系统的方法[2](分别使用集合、多重集和序列对变迁系统的状态进行抽象表示,简称TS-set、TS-multiset和TS-sequence)和文献[4]提出的基于随机Petri网的方法(简称SPN)。数据驱动方法选择文献[8]提出的基于LSTM深度神经网络的方法(简称LSTM)。多项研究已证实在剩余时间预测任务中LSTM优于其他传统机器学习方法,故不再与基于传统机器学习的方法进行对比。此外,对文献[7]中的方法进行改进,使用GRU替代LSTM作为循环神经网络的实现(简称GRU)。对于本文方法,分别使用LSTM和GRU作为多层循环神经网络中神经元的实现。

基于变迁系统的方法使用ProM 5.2实现,基于随机Petri网的方法使用ProM 6.8实现,本文方法与各种基于循环神经网络的方法均使用PyTorch 1.1实现。

对各种基于循环神经网络的方法进行基本调参,调参范围为:

①输入事件向量维度:{3,5,7,10};

②神经元隐向量维度:{3,5,7,10};

③学习率:{0.01,0.1}。

其他参数设置方案为:迭代轮数为150轮,优化算法为Adam。

(2) 评价指标

使用平均绝对误差(Mean Absolute Error, MAE)作为各个方法的评价指标,通过计算各个实例前缀剩余执行时间的真实值和预测值之间差值的绝对值来度量剩余时间预测的准确性。较高的MAE表示较高的剩余时间预测质量。对于某剩余时间预测模型 f,MAE值计算方法如公式(12)所示。

MAE(f)=σ(k),Rσ(k)Dfσ(k)-Rσ(k)

采用5折交叉验证的评估方式,即将数据集随机分成5等份,每次选择4份作为训练数据,1份作为测试数据,重复5次实验,各次实验MAE值的平均值作为最终评估结果。

(3) 实验结果

本文方法与对比方法在各个数据集上的MAE评测结果如表2所示。

表2   对比实验结果

Table 2  Experiment Results

方法BPIC2012_ABPIC2012_OBPIC2012_WHelpdeskHospital_Billing
TS-set7.5058.4297.3926.28351.456
TS-multiset7.4888.6917.2036.16751.507
TS-sequence7.4888.6199.6126.19251.504
SPN8.8808.5166.3856.33778.018
LSTM3.5888.0217.9933.54242.050
GRU3.8957.3246.1533.30336.691
本文方法(LSTM)3.4895.8585.8263.35733.201
本文方法(GRU)3.5127.3066.3382.67732.227

新窗口打开| 下载CSV


①基于深度学习的各种方法在各个数据集上均优于基于变迁系统和随机Petri网的方法,这印证了深度学习在剩余时间预测任务上的优势。这一现象的主要原因在于循环神经网络强大的序列建模能力,特别是真实事件日志往往具有海量、高噪音的特点,较强形式化的流程模型(如变迁系统、Petri网等)难以有效描述整个事件日志的特征,而循环神经网络能够更好地处理海量事件日志,且鲁棒性更强,从而可以取得更优的预测效果。

②对比LSTM和GRU两种循环神经网络,经典的单层GRU略优于单层LSTM,本文使用的多层LSTM则略优于多层GRU。整体而言,LSTM与GRU在预测效果上没有显著区别。考虑到GRU在训练时间上的优势,可以认为GRU要比LSTM更为适合剩余时间预测任务,这说明将GRU应用于剩余时间预测任务是一次有益的尝试。

③对比经典的单层LSTM/GRU和本文使用的多层LSTM/GRU,多层网络在大多数情况(除GRU在BPIC2012_W数据集上)取得了比单层网络更优的预测质量,这说明适度增加循环神经网络的深度能够在一定程度上提升剩余时间预测效果。

④本文方法(以双向LSTM/GRU作为基础模型,引入迁移学习框架和事件表示学习预训练方法)在5个数据集均取得了最优的预测效果。具体而言,在LSTM和GRU两种循环神经网络神经元实现上,本文方法在所有数据集上的MAE值平均下降约16%和7%,验证了本文方法的优越性。

5.3 迁移学习效果分析

在本实验中,以双层GRU为基础模型训练面向不同前缀长度的剩余时间预测模型,采用如下三种训练方式:

(1)在所有长度实例前缀数据集上训练一个统一模型(简称Uni-2layer-GRU);

(2)在各个长度实例前缀数据集上分别独立训练多个模型(简称Sep-2layer-GRU);

(3)在本文迁移学习框架下训练多个模型(简称Trans-2layer-GRU)。

三种方法在不同长度轨迹前缀数据上的MAE值如图3所示。

图3

图3   迁移学习效果对比

Fig. 3   Results of Transfer Learning


可以发现,Trans-2layer-GRU的 MAE值在大多数情况下低于Uni-2layer-GRU和Sep-2layer-GRU,特别是在较长实例前缀上具有更为明显的优势,这证实了迁移学习机制能够有效利用不同长度的实例前缀之间的关联性,克服较长长度实例前缀数据稀缺的问题。进一步对比Uni-2layer-GRU和Sep-2layer-GRU可以发现,两者在整体上具有相当的预测效果,其中在较短实例前缀上Uni-2layer-GRU优势较大,在较长实例前缀上Sep-2layer-GRU优势较大,这在一定程度上证实了不同长度的实例前缀之间确实存在一定差异。此外,随着实例长度的增加,剩余时间预测的MAE值在整体上呈现不断下降的趋势,这一现象也和已有研究一致,主要是由于随着流程实例的不断执行(即实例前缀不断增长),剩余时间的不确定性在不断降低。

5.4 事件表示学习效果分析

在本实验中,以Uni-2layer-GRU为基础模型训练剩余时间预测模型,其输入的事件向量分别为独热编码的向量(简称Uni-2layer-GRU)和本文提出的事件表示学习方法学习得到的向量(简称Pretrain-Uni-2layer-GRU)。这两个方法在各个数据集上的MAE值如图4所示。可以发现,Pretrain-Uni-2layer-GRU在各个数据集上均取得了比Uni-2layer-GRU更低的MAE值,特别是在数据集BPIC2012_O上取得超过7%的改进,因此可以认为基于事件表示学习的预训练机制对于提升剩余时间预测效果具有非常重要的作用。

图4

图4   预训练效果对比

Fig.4   Results of Pre-training


6 结 语

本文设计了一种基于深度迁移学习的业务流程实例剩余执行时间预测方法。与已有研究使用LSTM循环神经网络训练单一预测模型不同,本文引入迁移学习机制构建面向不同实例长度的多个剩余时间预测模型,提升剩余时间预测的针对性。此外,设计了事件表示学习方法为神经网络模型提供预训练事件向量输入。在5个真实事件日志数据上开展了实验研究,结果证实本文方法能够取得比基于业务流程模型和LSTM循环神经网络的方法更优的剩余时间预测效果。

深度学习技术已在剩余时间预测任务中展示出巨大的应用潜力,然而现有基于深度学习的剩余时间预测方法大多完全依赖于历史事件日志,如何将形式化流程模型有机融合至深度神经网络模型中是进一步提升剩余时间预测效果的重要途径。

作者贡献声明

刘彤:论文起草及修改;

倪维健:提出研究思路,设计研究方案;

孙宇健:采集、清洗和分析数据,进行实验;

曾庆田:论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: niweijian@gmail.com。

[1] 倪维健. deep_trans.py. 剩余时间预测程序.

[2] 倪维健. bpic2012a.csv. BPIC_2012_A数据集预测结果.

[3] 倪维健. bpic2012o.csv. BPIC_2012_O数据集预测结果.

[4] 倪维健. bpic2012w.csv. BPIC_2012_W数据集预测结果.

[5] 倪维健. helpdesk.csv. Helpdesk数据集预测结果.

[6] 倪维健. hospital_billing.csv. Hospital_Billing数据集预测结果.

参考文献

van der Aalst W .

Process Mining: Discovery, Conformance and Enhancement of Business Processes

[M]. Springer, 2011.

[本文引用: 1]

van der Aalst W, Schonenberg M H, Song M .

Time Prediction Based on Process Mining

[J]. Information Systems, 2011,36(2):450-475.

[本文引用: 4]

赵海燕, 李帅标, 陈庆奎 , .

面向业务过程的时间预测方法

[J]. 小型微型计算机系统, 2019,40(2):280-286.

[本文引用: 1]

( Zhao Haiyan, Li Shuaibiao, Chen Qingkui , et al.

Method of Time Prediction for Business Process

[J]. Journal of Chinese Computer Systems, 2019,40(2):280-286.)

[本文引用: 1]

Rogge-Solti A, Weske M .

Prediction of Business Process Durations Using Non-Markovian Stochastic Petri Nets

[J]. Information Systems, 2015,54:1-14.

[本文引用: 4]

Verenich I, Nguyen H, La Rosa M , et al.

White-box Prediction of Process Performance Indicators via Flow Analysis

[C]//Proceedings of the 2017 International Conference on Software and System Process. ACM, 2017: 85-94.

[本文引用: 2]

Tax N, Verenich I, La Rosa M , et al.

Predictive Business Process Monitoring with LSTM Neural Networks

[C]//Proceedings of the 29th International Conference on Advanced Information Systems Engineering. Springer, 2017: 477-492.

[本文引用: 1]

Navarin N, Vincenzi B, Polato M , et al.

LSTM Networks for Data-Aware Remaining Time Prediction of Business Process Instances

[C]//Proceedings of the 2017 IEEE Symposium Series on Computational Intelligence. IEEE, 2017: 1-7.

[本文引用: 2]

Verenich I, Dumas M, La Rosa M , et al.

Survey and Cross-benchmark Comparison of Remaining Time Prediction Methods in Business Process Monitoring

[J]. ACM Transactions on Intelligent Systems and Technology, 2019, 10(4): Article No. 34.

[本文引用: 3]

Polato M, Sperduti A, Burattin A , et al.

Time and Activity Sequence Prediction of Business Process Instances

[J]. Computing, 2018,100(9):1005-1031.

[本文引用: 2]

Jimenez-Ramirez A, Barba I, Fernandez-Olivares J , et al.

Time Prediction on Multi-Perspective Declarative Business Processes

[J]. Knowledge and Information Systems, 2018,57(3):655-684.

[本文引用: 1]

Senderovich A, Weidlich M, Gal A , et al.

Queue Mining for Delay Prediction in Multi-Class Service Processes

[J]. Information Systems, 2015,53:278-295.

[本文引用: 1]

Bevacqua A, Carnuccio M, Folino F , et al.

A Data-driven Prediction Framework for Analyzing and Monitoring Business Process Performances

[C]//Proceedings of the 15th International Conference on Enterprise Information Systems. Springer, 2013: 100-117.

[本文引用: 1]

Senderovich A, Di Francescomarino C, Ghidini C , et al.

Intra and Inter-Case Features in Predictive Process Monitoring: A Tale of Two Dimensions

[C]//Proceedings of the 15th International Conference on Business Process Management. Springer, 2017: 306-323.

[本文引用: 1]

Leontjeva A, Conforti R, Di Francescomarino C , et al.

Complex Symbolic Sequence Encodings for Predictive Monitoring of Business Processes

[C]//Proceedings of the 13th International Conference on Business Process Management. Springer, 2015: 297-313.

[本文引用: 2]

Hochreiter S, Schmidhuber J .

Long Short-Term Memory

[J]. Neural Computation, 1997,9(8):1735-1780.

[本文引用: 1]

Cho K, Van Merriënboer B, Bahdanau D , et al.

On the Properties of Neural Machine Translation: Encoder-Decoder Approaches

[OL]. arXiv Preprint, arXiv:1409.1259.

[本文引用: 1]

Chung J, Gulcehre C, Cho K H , et al.

Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

[OL]. arXiv Preprint, arXiv:1412.3555.

[本文引用: 1]

Radford A, Narasimhan K, Salimans T , et al.

Improving Language Understanding with Unsupervised Learning

[R]. OpenAI, 2018.

[本文引用: 1]

Mikolov T, Sutskever I, Chen K , et al.

Distributed Representations of Words and Phrases and Their Compositionality

[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. 2013: 3111-3119.

[本文引用: 1]

/