基于概念格的数字图书馆用户市场细分——数字图书馆用户的概念聚类分析
滕广青, 毕强
吉林大学管理学院 长春 130022
摘要

以概念格理论为基础,借助营销学中市场细分的变量,通过概念聚类,用形式概念分析的方法对数字图书馆用户进行市场细分。对在数字图书馆用户细分中突破传统统计口径、建立可伸缩的细分机制进行探索。

关键词: 概念格; 数字图书馆; 用户; 市场细分; 聚类分析
Market Segmentation of Digital Library Users Based on Concept Lattice——Conceptual Clustering Analysis of Digital Library Users
Teng Guangqing, Bi Qiang
School of Management,Jilin University, Changchun 130022,China
Abstract

Based on concept lattice theory and drawing supports from market segmentation variables of marketing, this article develops market segment of digital library users by means of conceptual clustering of formal concept analysis. The authors also investigate the construction of elastic segmentation mechanism by breakthrough of traditional statistics in digital library users.

Keyword: Concept lattice; Digital library; Users; Market segmentation; Clustering analysis

数字图书馆(Digital Library,DL)这一概念产生于20世纪90年代。从研究的角度来看,数字图书馆是基于用户群体的内容的收集和组织;从实践的角度看,数字图书馆是提供数字形式信息服务的机构或组织[ 1]。其根本目标是通过一系列服务机制有效支持用户利用信息来学习和创造知识。因此,数字图书馆的建设不仅仅是数字化馆藏资源的建设,更包括用户服务的建设。而数字图书馆用户的市场细分正是数字图书馆用户服务建设的基础条件。本文以概念格理论为基础,借助营销学中市场细分的变量,用形式概念分析的方法对数字图书馆用户进行市场细分,以求探索一条建立数字图书馆用户细分市场的新途径。

1 研究背景

从“第一代基于数字化资源的数字图书馆”→“第二代基于集成信息服务的数字图书馆”→“第三代基于用户信息活动的数字图书馆”这三代范式[ 2]的演变可以看出,数字图书馆的建设越来越注重用户服务的建设。与传统图书馆不同的是,数字图书馆不受物理空间、地理空间以及时间等传统因素的限制,馆藏资源的数量和种类都远远超过以往的传统图书馆,其用户数量庞大、分布地域广且需求差异巨大,通过网络远程访问,并发访问与全天候访问超出人工处理的极限。在这种背景下,传统图书馆用户服务的理论和方法显然无法适应和满足现代数字图

书馆用户的需求,这就要求在对数字图书馆用户提供知识服务方面必须引入新的思想和方法。

市场细分(Market Segmentation,MS)的概念最早是由美国市场营销学家Smith于1956年提出来的[ 3]。其最初的含义是指企业根据消费者需求的差异,把整个市场分割成不同的消费者群体的过程。通过市场细分得到的客户群被称为细分市场。随着非营利组织营销的兴起,市场细分也被应用于非营利组织或公益组织的客户群划分以及建立在此基础上的用户服务。市场细分理论发展到今天,已经具备了包括地理细分、人口细分、心理细分、行为细分等一系列相对完备并行之有效的细分变量。然而,如果要利用这一系列市场细分变量对数量众多、成分复杂、需求各异的数字图书馆用户进行划分,则必须要有适当的方法才能得以实施。

Wille于1979年提出了形式概念分析(Formal Concept Analysis,FCA)[ 4],其目的是“重构格理论”,以其最基本的形式,关注于用概念来推理[ 5],由形式概念分析得到的全部概念及其之间的关系构成概念格(Concept Lattice,CL)。与其他形式体系相比,形式概念分析指的是了解常识、社会习俗、见解和目的的人的推理。它的首要的目标之一是支持人类思维、交流、争论,而非使其变得机械化[ 4]。在其后的20年中,FCA得到了学术界的极大关注,并发展成为进行数据分析的有力工具。国内目前概念格领域的研究成果多数集中于对已有的建格算法细节的修改和补充,而在实际应用的研究方面尚明显落后于国际水平。

2 基于概念格聚类分析的用户市场细分

进行市场细分的主要依据是异质市场中需求一致的用户群体,其实质就是在异质市场中求同质。因此,完全可以说市场细分的目标不是为了分解,而是为了聚合,即在需求不同的市场中把需求相同的用户聚合到一起。

2.1 用户市场细分的系统逻辑模型架构

在以往的一些研究中,用户相关信息的获得需要通过用户来提供,如调查问卷等。而网络上的现实情况是很少有用户去认真对待所谓的调查问卷,甚至故意填写虚假的注册信息以保护自身利益,远离潜在的威胁。而单纯依靠用户通过对数字图书馆的使用在日志文件中留下的审计记录,虽然可以获得类似某一IP用户的访问频度等信息,但是日志文件中抽象的数据不足以反映用户来自于教育网或某一城市等信息。同时,传统的聚类方法无法解释类之间的概念区别与联系,也不能呈现父类与子类的层次关系,对聚类结果的有意义的内涵描述较差,不便于专业人员的理解和维护。由于信息残缺和方法欠佳使得传统分析的实际效果和应用价值大打折扣。基于概念格的数字图书馆用户市场细分改变了这一状况,其系统逻辑模型如图1所示:

图1 基于概念格聚类分析的用户市场细分系统逻辑模型

该模型以市场细分变量和日志数据共同作为基础构建用户信息数据库,活化了用户数据。同时Wille、Godin、Stumme等形式概念分析领域的领军人物把从概念格理论中得到的结果应用到了数据挖掘的任务中[ 6, 7, 8]。通过概念聚类的格结构反映了对象与属性之间的联系,呈现了概念泛化与特化关系的概念层次结构,可以解释聚类之间的概念区别与联系,生成理想的用户细分市场,实现了向目标市场用户的个性化信息推送。

2.2 细分变量的数据准备与预处理
表1 市场细分变量

营销学中的市场细分原本有着较强的理论基础和实际效果,尽管其中比较经典的细分变量已被人们广泛接受和认可,但是其变量体系纷繁复杂,过多的变量会导致运算次数多得无法在可接受的时间内完成,从而造成实践中的不可操作。也有一些变量无法获得或者不易获得。因此,细分变量的选择必须考虑到变量获得的方便性和可行性。数字图书馆用户市场细分中可使用的细分变量如表1所示。

如果以表1中的变量来设置相关细分变量数据库,并结合日志数据生成用户信息数据库,即使不能使用全部变量,得到的仍然是一个海量数据集。受试验用数字图书馆网站资源所限,出于研究的目的从中抽取部分原始数据进行筛选、清洗、转换,从而获得可用于分析的数据,如表2所示:

表2 清洗后原始数据
2.3 基于细分变量的概念格聚类

表2给出的是一个多值的背景,即变量具有多值属性。这就需要把多值背景转化成单值背景,得到的单值背景的概念被视为是原多值背景的概念,这个转化过程称为概念的换算。关于换算中标尺选择与使用等问题可参见文献 [9]。通过换算得到的一种单值背景的情况如表3所示:

表3 换算后得到的单值背景

表3提供的单值背景显然尚未经过净化,如表3背景中的f属性和l属性,k属性和w属性,d属性和u属性,s属性和v属性,都存在着重合现象,这就需要把某些属性组合成一个属性(并且不会影响概念格的结构),形成净化后的背景。

鉴于同一个形式背景中,建格算法、数据及属性排列顺序等不会对概念格的构造产生根本性的影响,即基于同一形式背景的概念格是唯一的。因此对于算法细节等问题本文不再赘述。目前比较成型的基于概念格理论的数据挖掘工具软件包括:ConExp、Formal Concept Calculator、Coron System、Lattice Miner、GaloisExplorer、JaLaBA等多种,并各有其特点。本研究选择JaLaBA软件进行概念格聚类,其最大的特点在于能够提供多维的结构擅长呈现复杂的概念格,适合处理繁杂的用户特征信息。由净化后的形式背景通过概念聚类可以得到该形式背景对应的概念格,并可以用Hasse图加以表示,通过节点与连线来表示概念与概念间的关系。现实中更多变量和元素构成的形式背景将会产生更加复杂的概念格,这里由试验数据产生的概念格如图2所示:

图2 对应于净化后背景的概念格

图2中可以看到,在概念的“层次序”(简称序)中,超概念比子概念拥有更大的外延,子概念比超概念具备更多的属性,对象与属性间存在偏序关系。然而,仅仅通过试验用数字图书馆网站的有限资源获得的部分数据已经构造出相对复杂的概念格,尽管这里仅选取了部分数据,但变量数量已明显多于一般FCA基础文献,其可读性显然不如FCA基础文献中的Hasse图理想,并且图中的概念未必都具有实际意义。因此,通过概念聚类获得的概念格若想对数字图书馆用户市场细分产生支撑,还需要进一步分析,进行领域化理解。

2.4 聚类结果分析

传统的理论机械地将数字图书馆的用户按地域划分为馆内用户和远程用户;按授权情况划分为借阅证用户、被授权用户和未授权用户;按职业划分为科研用户、教师用户、学生用户;按组织形式划分为个人用户和团体用户;按利用馆藏的内容、方式划分为传统型用户、网络型用户和混合型用户[ 10]。这种用户划分方式虽然符合一定的客观规律,但根本无法保障现代数字图书馆用户服务的开展。即使加入营销学中的市场细分的统计口径和方法,用户可以按照IP地址被划分为来自城市的、来自教育网的、来自乡村的等;或者按照访问的资源类型被划分为访问学术信息的、访问娱乐信息的等;亦或按照访问时段被划分为日间访问的、深夜访问的等。这也仅仅是从表面上根据用户特征实现了用户细分,实质上无法判定哪一个变量最能反映用户特征,进而也就无从得知哪类用户才是主要的客户群,其信息、知识需求特征是怎样的,当然也就谈不上真正的个性化用户服务。

依据图2中呈现出的数字图书馆用户聚类概念格,可以将数字图书馆网络用户初步划分为A——主要浏览HTML页面的用户;B——来自城市的用户;C——在日间访问的用户;D——驻留时间长的用户;E——主要浏览学术信息和PDF格式文档的用户5个用户细分市场(实际情况会依据各数字图书馆及其用户的具体差异而不同)。表面上看,试验结果的统计口径不如文献[10]中的口径整齐划一,但事实上后者的细分解释了各用户细分市场之间的概念区别与联系,对用户进行了最大频繁项(用户特征)的聚类,最能反映数字图书馆用户特征。基于概念格的数字图书馆用户初步细分如图3所示:

图3 基于概念格的数字图书馆用户初步细分

基于概念格的数字图书馆用户市场细分在反映对象与属性之间联系的同时,揭示出概念的层次结构,可以解释用户细分市场之间的概念区别与联系,有助于根据需要调节用户市场细分的粒度,建立可伸缩的用户细分机制,方便管理者在不同层面上进一步挖掘不同用户细分市场的需求特征。以主要浏览学术信息和PDF格式文档的E用户细分市场为例,进行市场细分的情况如图4所示:

图4 对应图3中E用户细分市场的深度市场细分

图4中,E用户细分市场可以进一步细分为F——浏览学术信息和PDF格式文档,同时也访问时尚信息和HTML文档,并且在傍晚访问的用户;G——浏览学术信息和PDF格式文档并且来自于城市的用户;H——浏览学术信息和PDF格式文档、驻留时间长、高速接入并经常访问的用户三个子用户细分市场。每一个子用户细分市场作为E用户细分市场的子概念在细化概念对象的同时,拥有了更多的概念属性,并且在对象与属性之间保持着清晰的偏序关系。根据开展不同的用户个性化服务的需求,在必要的情况下还可以进一步细化用户市场细分的划分粒度,可以得到I、J、K、L、M更加细致的用户细分市场。例如,K用户细分市场是一群对学术信息感兴趣、访问文档类型多为PDF格式、驻留时间长、接入速度快、来自于教育网IP、在白天访问并经常使用的用户,那么这个用户群体中的用户很可能是高校中的一个群体。但作为数字图书馆管理人员,同时应该注意到M用户细分市场与K用户细分市场的不同特征。二者虽然都来自高校,但M细分市场作为K细分市场的子概念,其用户访问时段不固定,这说明该细分市场的用户可能24小时不离开校园。而且,其主要访问的文档内容除学术信息外还包括时尚信息,访问的文档类型除PDF格式外还包括HTML和MP4等。这样,数字图书馆管理人员可以很容易把M细分市场的用户定位在对学术与时尚都有追求的校园大学生这样一个社会群体。如果没有基于概念格的数字图书馆用户市场细分,即使数字图书馆管理人员知道其用户中存在校园大学生这样一个用户群体,也无法掌握该用户群体在使用数字图书馆过程中表现出的群体最大特征与偏好,而群体的自然与社会特征可以不胜枚举,进行有针对性的个性化服务就几乎没有可能。通过基于概念格的数字图书馆用户市场细分,在针对这个用户细分市场进行个性化服务时,能够根据用户细分市场的主要特征做到有的放矢。

3 结 语

基于概念格的数字图书馆用户市场细分采用营销学中业已成熟的细分变量,用形式概念分析的方法,在概念聚类的基础上进行用户市场细分,最大限度地展现出概念对象与属性之间的联系,揭示了细分市场中用户最主要的共同特征。并通过完善的概念层次结构,呈现出不同细分粒度下多个层次的用户细分市场的主要特征属性,从而使基于概念格的数字图书馆用户市场细分突破了传统用户群划分的统计口径的制约,最大限度地反映了用户个性化的需求特征与偏好。其不同细分粒度下子用户细分市场对象与属性的清晰的偏序关系,为建立可伸缩的用户市场细分机制提供了技术保障。

按照传统营销学市场细分变量进行的用户市场细分仅仅是数字图书馆用户服务建设的基础,具有相同或相似特征的用户有时也会对网站有着不同的使用方法。今后研究的主要问题在于针对数字图书馆用户的用法细分,包括关联规则分析和时序分析等。这些问题都有待于在未来的工作中进一步研究。

参考文献
[1] Borgman C L. What are Digital Libraries? Competing Visions[J]. Information Processing and Management, 1999, 35(3): 227-243. [本文引用:1] [JCR: 0.817]
[2] 张晓林. 数字图书馆机制的范式演变及其挑战[J]. 中国图书馆学报, 2001, 27(6): 3-5. [本文引用:1]
[3] Smith W R. Product Differentiation and Market Segmentation as Alternative Marketing Strategies[J]. The Journal of Marketing, 1956, 21(1): 3-8. [本文引用:1]
[4] Stumme G. Formal Concept Analysis on Its Way from Mathematics to Computer Science[C]. In: Proceedings of the 10th International Conference on Conceptual Structures: Integration and Interfaces. London, UK: Springer-Verlag, 2002: 2-19. [本文引用:2]
[5] Wille R. Restructuring Lattice Theory: An Approach Based on Hierarchies of Concepts[C]. In: Proceedings of the 7th International Conference on Formal Concept Analysis. Berlin: Springer-Verlag, 2009: 314-339. [本文引用:1]
[6] Strahringer S, Wille R. Conceptual Clustering via Convex-ordinal Structures[C]. In: Proceedings of FGML Workshop. Berlin-Heidelberg: Springer, 1993: 85-98. [本文引用:1]
[7] Mineau G, Godin R. Automatic Structuring of Knowledge Bases by Conceptual Clustering[J]. IEEE Transactions on Knowledge and Data Engineering, 1995, 7(5): 824-829. [本文引用:1] [JCR: 1.892]
[8] Stumme G, Taouil R, Bastide Y, et al. Computing Iceberg Concept Lattices with Titanic[J]. Data and Knowledge Engineering, 2002, 42(2): 189-222. [本文引用:1] [JCR: 1.519]
[9] Ganter B, Wille R. Formal Concept Analysis[M]. Berlin-Heidelberg: Springer-Verlag, 1999. [本文引用:1]
[10] 张正. 数字图书馆用户研究[J]. 图书馆, 2004(1): 46-48. [本文引用:1]