主题数据模型的可视化挖掘方法应用研究
周宁, 陈旭毅, 曾桢
武汉大学信息资源研究中心 武汉 430072
摘要

以一个通信公司为研究对象,在eTOM框架下讨论主题数据模型的可视化挖掘方法。探讨企业信息化所面临的新理论和实施方法问题。在实施过程中,通过采用可视化工具Pajek和TreeMap实现业务流程分析与梳理、可视化挖掘,并以人力资源主题数据模型为例,具体讨论可视化挖掘的实施方案。

关键词: 主题数据模型; 数据挖掘; 可视化; Pajek; TreeMap
中图分类号:TP391
Application Research on Visualization Mining Methods of Topic Data Model
Zhou Ning, Chen Xuyi, Zeng Zhen
Center for the Studies of Information Resources, Wuhan University, Wuhan 430072,China
Abstract

This paper dedicates to visualization mining methods of topic data model under eTOM(enhanced Telecom Operations Map) framework with some telecom company as the research object. It explores new theories and implementation methods in enterprises informationization. In the implementation process, business process analysis and visualization mining are achieved through Pajek and TreeMap. Detailed visualization mining implementation is discussed in human resources topic data model.

Keyword: Topic data model; Data mining; Visualization Method research; Pajek; TreeMap
1 引 言

我国企业的信息管理已迈入信息工程阶段,主题数据模型的研究与应用得到越来越多企业的重视。例如,通信企业在采用eTOM标准[ 1]之后,要对主题数据模型进行优化。主题数据模型是主题数据库物理结构对应的逻辑模型或者称之为概念模型。因此,主题数据库的相关理论其实首先是针对主题数据模型而言,而主题数据库则不过是主题数据模型的最终物理实施后的结果。詹姆斯·马丁在研究数据库的理论和应用发展问题的基础上,提出了主题数据库的概念。以主题数据库规划、设计和实现为主体的企业数据环境建设是信息工程的核心内容[ 2, 3]。优化主题数据模型则要分析和梳理业务流程、对数据进行深度挖掘。数据挖掘被描述为“从数据之中提取隐含的、先前未知的、潜在有用信息的过程”[ 4],以及“从大型数据集或数据库之中提取有用信息的科学”[ 5]。与企业资源规划相关的数据挖掘是指对大型交易数据集进行统计分析和逻辑分析,从中寻找可能有助于决策制定工作的模式的过程[ 6]。在数据挖掘的过程中采用可视化的工具会获得事半功倍的效果。本文具体讨论主题数据模型可视化的数据挖掘方法,通过实例研究和流程分析,采用合适的可视化工具得到了预期效果。

2 数据模型可视化挖掘分析
2.1 可视化挖掘及其工具

对数据模型进行可视化挖掘和分析,首先必须对数据模型中的大量逻辑表进行有效的组织,本文采用数据库的方式对关系表进行组织,生成了关系模型数据库。在数据库的基础上,提取用于进行可视化分析的可视化中间结构,采用可视化分析软件对其进行展示和分析。分析流程如图1所示:

图1 可视化分析流程图

在进行可视化挖掘与分析中,采用了两个软件作为可视化分析工具,分别是用于网状数据可视化分析工具Pajek和用于层次结构可视化分析工具TreeMap。

(1)Pajek简介[ 7]

Pajek是卢布尔雅那大学于1997年1月正式发布的一个可视化工具。它是一个特别为处理大数据集而设计的网络分析和可视化程序。Pajek可以同时处理多个网络,也可以处理二模网络和时间事件网络(时间事件网络包括了某一网络随时间而发生的网络的发展或进化)。

Pajek提供了纵向网络分析功能。数据文件中可以包含指示行动者在某一观察时刻的网络位置的时间标志,因而可以生成一系列交叉网络,可以对这些网络进行分析并考察网络的演化。

Pajek可以分析包含100万个以上节点的超大型网络。Pajek提供了多种数据输入方式,例如,可以从网络文件(扩展名为.net)中引入ASCII格式的网络数据。网络文件中包含节点列表和弧/边列表,只需指定存在的联系即可,从而高效率地输入大型网络数据。Pajek的图形功能很强,可以方便地调整图形以及指定图形所代表的含义。由于大型网络很难在一个视图中显示,因此Pajek会区分不同的网络亚结构并分别予以可视化。每种数据类型在Pajek中都有自己的描述方法。Pajek提供的基于过程的分析方法包括探测结构平衡和聚集性,分层分解和团块模型(结构、正则对等性)等。

(2)TreeMap简介[ 8]

TreeMap软件是美国马里兰大学人机交互实验室开发的用于层次分析的可视化软件。它主要采用树图绘制算法,可以针对层次数据进行可视化展示,如果层次为多级,还可以在不同深度上进行展示;同时可以针对数据的特征,如定量数据或定性数据进行不同的展示,定量数据可以映射为节点的大小,定性数据映射为节点的颜色。TreeMap已被很多研究机构及公司所应用,取得了很好的效果。

2.2 构建关系(表)数据库

采用数据库的方式可以有效地组织关系表。在人力资源管理主题数据库中,包含了7类的关系表,分别为机构管理、人员管理、人事档案管理、考勤管理、社会保障管理、招聘管理、薪资福利管理。以机构管理类中的机构基本信息表为例,其定义如图2所示:

图2 机构基本信息属性表

设计关系数据库,对各类目下的表进行有效组织。在构建数据库时,考虑到表格不大,最终的数据量不高,因此采用小型数据库Access。生成的关系表数据库中所含的表如下:

(1)属性表attr

它是对表格内属性的抽象。其中reftable是指该属性如果是外码的话,则reftable是它参照的表。机构基本信息表的各个属性在attr表中的元组如图2所示,type中的NOKEY是指其既不是主码也不是外码。

(2)关系表tb

关系表抽象成为tb表,包含了关系表的各种信息。其中class属性是指该表所属的类别。

(3)类目表class

类目表class对应的7个类抽象成为class表是对表格本身的抽象。类目表包含机构管理、人员管理、人事档案管理、考勤管理、社会保障管理、招聘管理和薪资福利管理等。

(4)属性、表、类的关系

属性中的tborder和reftable都是参照tb表的order,而tb表中的class是参照class表中的classID属性。它们之间的关系如图3所示:

图3 参照关系表

3 网状结构可视化

在进行网状结构可视化分析时,采用了Pajek作为分析软件。为了进行网状结构可视化分析,必须首先构造用于分析的网络,此处构建两种网络:表格-属性关系网络、表格参照关系网络。

3.1 Pajek的网络文件格式

Pajek可识别的网络以.net作为后缀,其主要包含两部分,节点列表和边列表。节点列表以*Vertices开头,后跟节点的数目及每个节点的信息,可以包含节点的名称、节点形状、节点颜色等信息。边列表紧跟在节点列表后,以*Edges为开头,后面为每条边的信息,用对应的两个节点的编号表示。要说明的是,节点编号必须从1开始,依次编号。

图4为Pajek网络文件范例及其可视化效果。

图4 可视化效果图

3.2 双模网络分析[ 9, 10]

当一个网络中含有两类节点时,它就是双模网络,表格-属性关系网络就是双模网络,因此,它包含了表、属性两类不同的节点。

Pajek支持双模网络的分析,在对应的网络文件中,*Vertices后首先跟网络中的节点总数,节点总数后跟第一类节点的数目。

(1)构造表格-属性关系表

为了构造表格-属性关系表,首先需要构造属性索引表attrindex,为每个属性定义一个数字编码,即属性索引,索引号由1到属性总数值,在数据库中含有325个属性,因此索引值为1-325。

有了表格和属性节点的编号信息,还需要设置边列表。边列表的设置采用SQL脚本来完成。这样,就可以生成双模网络文件。

(2)双模网络可视化分析

将双模网络文件导入Pajek后,Pajek将解析双模网络文件,并在Networks栏目中显示文件名称。

读取文件后,就可以进行可视化显示,Pajek的可视化功能都集中在“Draw”菜单中,采用菜单命令就可以显示可视化图。

在双模网络的可视化图中,由于在双模网络中将属性节点设置为椭圆红色,而将表节点设置为菱形黄绿色,因此在图中可以根据颜色和形状来区分不同的节点。

在可视化进程中发现,表格节点处的边比较密集,是因为表格节点较少而属性节点较多,因此表格节点处边的密度大。同时不同节点的边的密度也可以通过缩放查看。

通过缩放,可以观察可视化图的细节。从图5可以看出,修改日期、修改标记节点为密度较大的点,即被各表格使用的次数较多,通过在修改日期节点上点击右键,可以获取与修改标记节点相连的表的信息。

图5 可视化图的一些细节

当从细节观察表节点时,也可以发现薪资福利发放历史为边最密集的表节点。通过对线密度的观察,可以直观地发现哪些表里包含的属性多。

采用表节点列表和参照关系,可以生成如下的单模网络文件。其中当表格为参照表格时,被设置为红色的椭圆;当表格为被参照表格时,被设置成为绿色的菱形。

采用Pajek的可视化功能,并结合节点的度值属性,形成如下的环状可视化图,如图6所示。可以看出,职工基本信息被参照次数最多。

图6 表格与属性联系的可视化

图7 力导向可视化图

图7为力导向可视化界面。从中可以清楚地看出整个可视化网络大体分为两部分:以档案列表为核心的档案管理,以及以职工基本信息和综合联系为核心的类。同时有些表格相对独立,比如工资表只与工资调整历史有关,而招聘计划和单次招聘职位有关。从图中可以清晰地看出节点间的参照关系,方便对整个数据库的分析。

4 层次结构可视化方法

在关系模式数据库中,包含了7类表格,这些表格能形成以属性信息为基本单位的数据。对这些数据可以进行层次机构可视化,此处采用TreeMap软件作为可视化分析软件。

(1)制作层次数据结构

在TreeMap中,其所需的数据文件格式如下:

①Line1:数据列标题,不同的列用Tab键隔开;

②Line2:数据列格式,不同列的格式用Tab键隔开;

③Line3-文件结束:具体数据,数据间用Tab键隔开。

为了生成层次数据文件,要从数据库中抽取所有属性及其表格和类别的数据,采用SQL查询,生成如下格式的数据:

SELECT attr.type as 键类型,

attr.name as 属性名称,

tb.name as 表格名称,

class.name as 表格类别,

FROM attr,tb,class

WHERE attr.tborder=tb.order AND tb.class=class classID

(2)准备可视化软件所需的数据文件

将这些数据进行简单的复制,形成TreeMap软件可以识别的文件格式,如表1所示:

表1 TreeMap软件可以识别的文件格式

在键类别中,包含4种取值,分别为PKFK(主外码)、PK(主码)、FK(外码)、NOKEY(既不是主码也不是外码)。4个数据属性都用String(字符串)作为数据格式。

有了上述文件结构,并保存为后缀为tm3的文件,就可以进行TreeMap可视化。图8为一个可视化树图。

图8 树图的实例

5 结 语

主题数据模型的数据挖掘能有效地对大型数据集进行统计分析和逻辑处理。采用可视化挖掘工具Pajek和TreeMap提高了数据挖掘效果和管理效率。在可视化挖掘过程中,利用数据库技术准备好可视化挖掘软件所需的接口文件是至关重要的,是能否利用可视化软件工具的关键。本文对主题数据模型的可视化挖掘方法进行了有益的尝试,在实践中取得了一定的经验。随着挖掘技术的不断改进,企业的现代化管理水平将走向一个新的阶段。

参考文献
[1] Enhanced Telecom Operations Map(eTOM). The Business Process Framework for the Information and Communications Services Industry [EB/OL]. [2010-03-25]. http://www.tmforum.org/DocumentLibrary/EnhancedTelecomOperations/30660/article.html. [本文引用:1]
[2] Martin J. Information Engineering, Book I: Introduction[M]. New Jersey, USA: Prentice Hall, 1989. [本文引用:1]
[3] Martin J. 大转变: 企业构建工程的七项原则[M]. 李东贤等译. 北京: 清华大学出版社, 1999. [本文引用:1]
[4] Frawley W J, Shapiro P G, Matheus C J. Knowledge Discovery in Databases: An Overview[J]. Ai Magazine, 1992(13): 213-228. [本文引用:1] [JCR: 0.726]
[5] Hand D J, Mannila H, Smyth P. Principles of Data Mining[M]. Cambridge, MA: MIT Press, 2001. [本文引用:1]
[6] Monk E, Wagner B. Concepts in Enterprise Resource Planning [M]. 2nd Edition. Boston, MA: Thomson Course Technology, 2006. [本文引用:1]
[7] Networks / Pajek: Program for Large Network Analysis[EB/OL]. [2010-03-25]. http://vlado.fmf.uni-lj.si/pub/networks/pajek/. [本文引用:1]
[8] Human-Computer Interaction Lab: TreeMap[EB/OL]. [2010-03-25]. http://www.cs.umd.edu/hcil/treemap/. [本文引用:1]
[9] 倪敏. 新网互联首推“双模”网络服务[J]. 互联网天地, 2007(9): 3. [本文引用:1]
[10] 牟晓隆. 企业双模网络服务联盟成立[J]. 通信世界, 2007(38B): 24. [本文引用:1]