科研用户博文关键词标注行为差异研究——以科学网博客为例
张颖怡1, 章成志1,2, 池雪花1, 李蕾1
1南京理工大学经济管理学院 南京 210094
2江苏省数据工程与知识服务重点实验室(南京大学) 南京 210093
通讯作者:章成志, ORCID: 0000-0001-8121-4796, E-mail:zhangcz@njust.edu.cn

作者贡献声明:

张颖怡: 实验设计与实施, 数据分析, 论文起草;

章成志: 提出研究思路, 设计研究方案, 采集、分析数据, 论文最终版本修订;

池雪花: 数据采集, 论文修改;

李蕾: 论文修订。

摘要

【目的】为优化标注系统提供依据, 同时丰富网络环境下用户标注行为的研究。【应用背景】不同人群的关键词标注行为差异研究是用户信息行为研究中的一个重要方面。【方法】从标注系统使用方式、关键词结构以及标注动机三个角度选取关键词标注比率、用户标注关键词比率、用户标注关键词平均个数、用户标注关键词平均长度以及用户标注关键词重用率5个标注行为指标, 分析科学网博客中不同类型用户标注行为的差异。【结果】分析结果发现, 不同职业、专业、注册时间、发博文频率以及职称的用户在部分标注行为上存在显著性差异, 但不同性别以及学历的用户在主要标注行为上不存在显著性差异。【结论】学术博客可以根据不同类型用户的标注行为差异,对博文标注系统进行优化。

关键词: 社会化标签; 标注; 科研用户; 标注行为; 用户信息行为
中图分类号:G203
Difference Research on Keywords Tagging Behavior for Academic User Blog ——A Case Study of ScienceNet.cn
Zhang Yingyi1, Zhang Chengzhi1,2, Chi Xuehua1, Li Lei1
1School of Economics & Management, Nanjing University of Science and Technology, Nanjing 210094, China
2Jiangsu Key Laboratory of Data Engineering and Knowledge Service (Nanjing University), Nanjing 210093, China
Abstract

[Objective] This paper aims to provide the basis for optimizing the annotation system and enrich user annotations behavior research under the network environment.[Context] Differences research on keywords tagging behavior among different groups is one of the major works in user information behavior research.[Methods] To analyze the differences types of ScienceNet.cn user’s annotation behavior, this paper selects keywords tagging ratio, user-generated keywords tagging ratio, user-generated keywords average number, user-generated keywords average length and user-generated keywords average reuse ratio from the perspective of the way for tagging system, keywords structure and tagging motivation.[Results] The results show that the users with different occupation, major, register time and blog published frequency have significant differences on some tagging behaviors, but the users with different gender and education have no significant differences on all the tagging behaviors.[Conclusions] Academic blog can optimize the tagging system according to the differences of different user’s annotation behavior.

Keyword: Social tags; annotation; Academic user; Tagging behavior; User information behavior
1 引 言

科研社交网络是以互联网为平台, 基于一定人际网络关系, 以学术数据、信息、知识共享与交流为目的而形成的网络社区[1]。当前的科研社交网络允许用户对网络资源(如博文), 进行关键词或标签标注。标签是由用户自己定义并与资源直接联系的描述词[2]。科研社交网站上的标签可供用户进行信息组织与检索, 从而促进学术信息的传播与共享。

目前, 由于社交网络上关键词标注大多采用自由标引方式, 部分标签并不能准确地描述资源的内容, 用户标注的关键词尚存在标注质量的差异问题, 这在一定程度上降低了基于标签的信息组织与检索系统的质量[3], 研究用户的标签标注行为对提高标签质量, 优化基于标签的信息系统的组织与检索效率有一定的指导作用。特别地, 研究不同用户的标签标注行为差异, 对于理解不同用户标签标注动机, 提高标签标注质量有重要意义[4]。基于此, 本文以科学网博客的科研用户为研究对象, 对用户的关键词标注行为差异进行研究。利用4个专业的博文关键词和用户信息, 分别从标注系统使用方式、关键词结构以及标注动机三个角度选取用户关键词标注行为量化指标, 分析科研用户在职业、性别、专业、学历、注册时间、发博文频率以及职称等7个方面存在的关键词标注行为差异。

2 相关研究

随着Web2.0技术的发展, 一些网站开始提供标签标注服务, 如CiteULike, Delicious等。标签能够帮助用户进行内容分类、描述与检索。通过对用户标注行为进行分析, 可以理解用户创造与选择标签的方式, 有助于用户标签标注行为模型的建立与标签推荐系统的设计。

关于标注系统中用户标注行为的研究已经引起学者的持续关注。在研究中, 学者们选取一些指标对用户标注行为进行量化。2006年, Golder等[5]从标签标注频率、标签增长规律等角度进行研究。2007年, Farooq等[6]以CiteULike作为研究平台, 利用两年的标签数据, 从标签增长、标签重用、标签的显隐性、标签歧视、标签频率和标注方式分析用户标签标注行为。2009年, Mirzaee等[4]从每个资源的标签数量、标签的选择与使用、标注频率等角度分析用户标签标注动机对标注行为的影响。2011年, Wang等[7]以StumleUpon与Delicious为平台, 从用户标签数量、用户标签共享、高频率标签的使用等角度对用户标注行为进行分析。2012年, Lin等[8]通过问卷调查的方式, 从用户对标签的理解程度与用户标签标注个数等角度调查Delicious平台中的400位用户的标签标注行为。2013年, Guyot[9]从LibraryThing中收集得到50本书的13 358个标签, 并从标签长度、标签个数、高频率使用标签、不同语言标签、标签长尾性等角度进行分析。

从上述的标注行为量化指标中可以看出, 现有的研究主要从标签的结构角度与语义角度对用户标注行为进行量化, 其中, 对标签标注频率、标签重用率、标签标注数量等指标的研究较多。

近年来, 开始有学者关注不同类型用户(特别是专家与新手)的标注行为差异。2011年, Tsai等[10]以学术文本作为标签标注对象, 征集20位志愿者, 并将他们分为专家与新手两类, 分析各组用户标签标注行为的相似性与一致性。2013年, Š piranec等[11]在Tsai等[10]研究基础上, 征集80位志愿者, 并将他们分为专家与新手两类, 研究各组用户标签标注的一致性以及标签与原文关键词的相似度, 结果指出专家选择的标签有更高的一致性, 并且符合原文关键词的标签数量较多。同年, Chen等[12]从CiteULike中收集3 972个标签作为新手的标注成果, 从LISA中收集6 708个描述词作为专家的标注成果, 引用TCM(Tag Category Model)区分标签与描述词, 并分别建立新手与专家的关键词使用模型。吴丹等[13]从标签数量、标签类型、标签重用、标签形式4个方面将武汉大学图书馆图书标签与豆瓣网图书标签进行对比, 分析图书馆与图书分享网站上的用户标注行为差异, 并提出提高图书馆标注服务的相关建议。

综上, 现有的研究主要采用统计分析与问卷调查方式, 从标注系统中用户整体的标注行为、不同类型用户标注行为等角度展开研究, 但在不同类型用户标注行为研究中, 存在对用户分类比较单一等问题, 没有从多个角度对用户分类进行分析。因此, 本文从多个角度对用户进行分类, 分别对各用户组的关键词标注行为的差异进行调研, 为优化科研社交网站标注系统中系统推荐关键词等功能模块提供一定建议, 同时为了解不同类型用户关键词标注行为的差异提供参考。

3 调研方案与关键指标

为了考察科研用户的关键词标注行为差异, 本文设计关键词行为差异研究方案。笔者从科学网博客上采集博文的关键词标注信息, 并根据用户URL采集对应的用户信息; 将关键词数据与用户信息综合起来对数据进行预处理, 计算用户关键词标注行为的量化指标, 从而为不同类型用户标注行为差异分析提供依据。

3.1 实验数据

在采集实验数据时, 笔者对以下方面进行控制:

(1) 数据来源: 以科学网博客(①http://blog.sciencenet.cn/blog.php.)为研究平台, 采集相关数据。科学网博客于2007年1月18日开通, 并于同日提供关键词标注功能与系统推荐关键词功能, 关键词标注功能基本上保持不变;

(2) 采集时间: 2013年8月23日;

(3) 博文时段: 采集2007年1月18日至2013年8月23日的博文;

(4) 采集对象: 选择管理综合大类下的经济学、图书情报文献学、工商管理以及教育学4类学科作为采集对象。

本文采集的博文信息与对应的用户信息如下:

(1) 博文信息: 博文题名、博文正文、博文关键词、博文发布时间、博文URL等数据;

(2) 用户信息: 根据博文URL, 在博文对应的用户页面中收集用户姓名、职业、性别、专业、学历、注册时间以及职称等信息, 对于没有直接在页面中写明信息的用户, 笔者通过发送站内信的方式向用户征集相关信息, 对于无法在网络中搜集到完整信息的用户, 将该用户的博文进行剔除。最终共采集172名用户的用户信息和其所发布的21 374篇博文, 具体的用户基本信息统计如表1所示:

表1 调查对象基本情况
3.2 用户标注行为量化指标

根据科学网博客用户的标注系统使用方式、关键词结构以及标注动机等角度选取5个关键词量化行为指标。在标注系统使用方式中, 本文选取关键词标注比率与用户标注关键词比率两个指标。在关键词结构中, 选取用户标注关键词平均个数与用户标注关键词平均长度两个指标。在标注动机中, 选取用户标注关键词重用率指标。对指标选取依据与数据处理方法进行介绍, 指标公式与说明如表2所示:

表2 用户标注行为量化指标说明

(1) 关键词标注比率

博文的关键词越多, 说明用户关键词标注的积极性越高[13]。因此, 通过关键词标注比率, 可以对不同用户标注关键词的积极性进行分析。本文对每位用户的博文总数与有关键词的博文数量进行统计, 计算关键词标注比率。

(2) 用户标注关键词比率

①使用系统推荐关键词的人数越多, 说明用户的标注受环境(如系统推荐功能)的影响越大[14];

②科学网博客提供系统推荐关键词服务, 但系统推荐的关键词容易出现“ 停用词” (即不可能为人工标注的关键词, 如href、alt等无意义的关键词), 因此, 该指标值高, 说明用户倾向于提升标签的选择标准(如选用有明确意义的标签等)[4]标注博文。

本文采用词频统计法, 得到高频词汇, 人工判断高频词中的“ 停用词” 。如果一篇博文的关键词包含该停用词, 则将该博文的所有关键词判断为系统生成关键词。

(3) 用户标注关键词平均个数

①该指标从关键词结构角度对用户标注行为进行分析;

②已有研究通过对不同网站中用户的关键词平均个数以及不同资源的关键词平均个数进行调研, 分析用户的关键词标注行为[4, 7, 8, 9, 13]

剔除系统生成关键词标注的博文。在科学网博客中, 关键词分为中英文两种语言。对于中文关键词, 将逗号、分号等符号作为关键词分割符。对于英文关键词, 采用人工判别方式, 以词组为标准。

(4) 用户标注关键词平均长度

①现有用户标注行为的研究中, 学者已开始关注关键词长度[9];

②关键词长度的研究数量占所有用户标注行为的研究仍较少。因此, 通过该指标可以为关键词长度的研究提供参考。

剔除系统生成关键词标注的博文。本文采用计算字节数的方式, 将1个中文字计算为2个字节, 将1个英文字母计算为1个字节。

(5) 用户标注关键词重用率

根据标注者中分类者与描述者的概念, 其中分类者使用重复关键词较多, 标注目的在于组织资源, 描述者标注目的在于描述资源[15]。因此, 该指标值越高, 说明用户标注的目的倾向于组织与分类资源。

剔除系统生成关键词标注的博文, 并统计每位用户的所有不相同的关键词的总个数以及每个关键词所对应的博文数量总和。

4 结果分析

使用两独立样本Mann-Whitney U检验与多个独立样本Kruskal-Wallis H检验进行用户关键词标注行为差异分析, 使用一元线性回归分析指标数值变化趋势。

4.1 不同职业用户标注行为差异分析

对不同职业科研用户博文关键词标注行为进行差异分析, 结果如表3所示:

表3 不同职业科研用户标注行为描述性分析和多个独立样本K检验

(1) 不同职业科研用户在用户标注关键词重用率上有显著性差异;

(2) 在用户标注关键词重用率指标中, 教师指标值明显高于其他三类用户, 说明教师标注的目的倾向于分类与组织博文资源。

4.2 不同性别用户标注行为差异分析

对不同性别科研用户博文关键词标注行为进行差异性分析, 结果如表4所示:

表4 不同性别科研用户标注行为描述性分析和两独立样本U检验

(1) 不同性别科研用户各指标值均无显著性差异;

(2) 男性的5个指标值均高于女性, 说明男性的关键词标注积极性较高, 受系统环境影响较大, 倾向于使用自己生成的关键词, 每篇博文关键词个数较多, 关键词平均长度较长, 关键词重复使用率较高。

4.3 不同专业用户标注行为差异分析

对不同专业科研用户博文关键词标注行为进行差异性分析, 结果如表5所示:

表5 不同专业科研用户标注行为描述性分析和多个独立样本K检验

(1) 不同专业科研用户在用户标注关键词重用率上有显著性差异;

(2) 在用户标注关键词重用率上, 教育学用户标注关键词重用率指标明显高于其他三类用户, 说明教育学用户标注目的倾向于组织博文。

进一步对各专业关键词重用情况进行分析。将用户标注关键词进行频次统计, 选取重用频次前10位的关键词进行分析, 结果显示:

(1) 教育学中关键词的重用次数最多, 这与描述性分析中教育学的关键词重用率高的结论相一致;

(2) 在重用率较高的专业中, 用户倾向于标注与专业相关的关键词, 如教育学的前10位重用关键词中, 有4个包含“ 教育” 词汇。

4.4 不同学历科研用户标注行为差异与变化趋势分析

对不同学历科研用户博文关键词标注行为进行差异性分析, 结果如表6所示:

表6 不同学历用户标注行为描述性分析和多个独立样本K检验

(1) 不同学历科研用户各指标值均无显著性差异;

(2) 本科在读的用户标注关键词平均长度较长, 本科用户关键词标注积极性较高, 硕士在读用户的用户标注关键词比率较高, 说明受系统环境影响较小, 博士在读用户关键词平均长度较长, 硕士学历用户倾向于使用相同的关键词。

进一步对不同学历用户标注行为进行线性回归分析, 得出用户标注行为随学历变化的趋势。由于本科在读与本科样本数量较小, 因此将用户分为本科(本科在读和本科), 硕士研究生(硕士在读和硕士), 博士研究生(博士在读和博士)三类, 其中本科7人, 硕士研究生71人, 博士研究生94人。将学历进行量化, 形成三个学历子群, 对三个样本的平均数进行线性回归分析, 结果如表7所示:

表7 不同学历用户标注行为指标线性回归分析

(1) 学历和关键词标注比率指标以及用户标注关键词平均长度指标相关, 与其他指标不相关;

(2) 关键词标注比率指标值随学历的提高而下降, 可见学历越低, 关键词标注积极性越高;

(3) 用户标注关键词平均长度指标值随学历的提高而上升, 可见学历越高, 关键词平均长度越长。

4.5 不同注册时间科研用户标注行为差异与变化趋势分析

对不同注册时间用户的博文关键词标注行为进行差异性分析, 结果如表8所示:

表8 不同注册时间用户标注行为描述性分析和多个独立样本K检验

(1) 不同注册时间用户在用户标注关键词平均长度指标与用户标注关键词重用率指标上有显著性差异;

(2) 在用户标注关键词平均长度指标中, 注册时间为2007年的用户标注关键词平均长度指标数值最高。在用户标注关键词重用率指标中, 注册时间为2008年的用户标注关键词重用率指标值较高。

进一步对不同注册时间用户的标注行为进行线性回归分析, 得出用户标注行为随注册时间推迟的变化趋势。由于注册时间为2007年与2013年的样本数量较少, 因此, 笔者将注册时间范围缩小至2008年至2012年, 对注册时间进行量化分析, 形成5个注册时间子群, 对5个样本的指标平均数进行线性回归分析, 结果如表9 所示:

表9 不同注册时间用户标注行为指标线性回归分析

(1) 注册时间与关键词标注比率、用户标注关键词平均个数以及用户标注关键词重用率相关, 与其他指标不相关;

(2) 注册时间与关键词标注比率正线性相关, 随注册时间推迟, 用户关键词标注积极性提高;

(3) 注册时间与用户标注关键词平均个数负相关, 随注册时间推迟, 关键词平均个数减少;

(4) 注册时间与用户标注关键词重用率负线性相关, 随注册时间推迟, 用户关键词重用率下降, 用户倾向于使用关键词来描述博文。

4.6 不同发博文频率科研用户标注行为差异与变化趋势分析

对不同发博文频率科研用户博文关键词标注行为进行差异性分析, 结果如表10所示:

表10 不同发博文频率用户标注行为描述性分析和多个独立样本K检验

(1) 不同发博文频率用户在关键词标注比率、用户标注关键词平均个数以及用户标注关键词重用率指标上存在显著性差异;

(2) 在关键词标注比率指标中, 发博文频率每年1篇或更少的用户指标值最高, 说明该类用户关键词标注积极性较高。在用户标注关键词平均个数指标与关键词重用指标中, 发博文频率每年大于20篇的用户指标值最高, 说明该类用户使用关键词个数较多, 同时由于该类用户发表博文数量较多, 倾向于使用关键词来组织大量的博文。

进一步对不同发博文频率用户标注行为进行线性回归分析, 得出用户标注行为随发博文频率增加的变化趋势。将发博文频率进行量化, 形成5个发博文频率样本子群, 对5个样本的指标平均数进行线性回归分析, 结果如表11所示:

表11 不同发博文频率用户标注行为指标线性回归分析

(1) 发博文频率与用户标注关键词重用率相关, 与其他指标不相关;

(2) 用户标注关键词重用率与发博文频率正线性相关, 随发博文频率增加, 用户标注的目的倾向于分类与组织博文。

4.7 不同职称用户标注行为差异与变化趋势分析

对不同职称科研用户博文关键词标注行为进行差异性分析, 结果如表12所示:

表12 不同职称用户标注行为描述性分析和多个独立样本K检验

(1) 不同职称科研用户在用户标注关键词重用率指标上存在显著性差异;

(2) 用户标注关键词重用率指标中, 研究员指标值最高, 说明该类用户倾向于使用关键词来分类与组织资源。

进一步对不同职称科研用户标注行为进行线性回归分析, 得出用户标注行为随职称上升的变化趋势。去除无职称与其他职称用户。由于助理研究员, 副研究员以及研究员样本数量较少, 因此将用户分为讲师(讲师与助理研究员), 副教授(副研究员与副教授), 教授(研究员与教授)三类。对职称进行量化, 形成三个职称样本子群, 对三个样本的指标平均数进行线性回归分析。结果如表13所示:

表13 不同职称用户标注行为描述性分析和多个独立样本K检验

(1) 职称与用户标注关键词平均个数相关, 与其他指标不相关;

(2) 用户标注关键词平均个数与职称正线性相关, 随职称提升, 用户关键词平均数量增加。

5 总结与展望

实证研究表明, 不同类型用户的学术博客关键词标注行为存在差异。对不同类型用户标注行为进行研究, 可以为学术博客标注系统建设提供相应建议:

(1) 用户使用系统生成关键词比率普遍较高, 因此, 科学网博客标注系统应提高关键词推荐的准确度, 以促进博文组织的效率与质量;

(2) 博文关键词标注功能使用者趋向于低学历、年轻化, 因此, 科学网博客标注系统的设计应趋于年轻个性化, 保持这类用户的标注积极性。同时, 标注系统的设计也应简单易用, 激励更多的社会大众参与标注;

(3) 使用博客时间越长, 职称越高的用户使用关键词个数越多, 因此, 标注系统应为这类用户推荐个数较多的关键词;

(4) 学历越高的用户使用关键词长度越长, 因此, 标注系统应为这类用户推荐长度较长的关键词;

(5) 博客使用时间越长, 每年发博文数量越多的用户越倾向于使用关键词来分类与组织博文, 因此, 标注系统应为这类用户推荐个人使用率较高的关键词。

本文对科研用户标注行为的研究集中在关键词结构方面, 而且只是从单一标注网站采集数据, 另外, 仅选择管理综合大类中的4个差异较大的学科。在下一步的研究中, 拟扩大学科范围与数据规模, 并从关键词结构与关键词语法、语义等多方面, 对不同类型用户在不同标注系统中的行为差异进行比较分析。同时, 为不同背景用户标注行为进行建模, 得到各类用户关键词标注行为模型。

参考文献
[1] 张素芳, 张晓晓. 科研社交网络用户行为倾向的影响因素分析[J]. 国家图书馆学刊, 2014, 23(4): 36-41.
(Zhang Sufang, Zhang Xiaoxiao. Empirical Study on the Influential Factors of Users Behavioral Tendencies in Scientific Social Network[J]. Journal of the National Library of China, 2014, 23(4): 36-41. ) [本文引用:1]
[2] Lu C, Park J, Hu X. User Tags Versus Expert-Assigned Subject Terms: A Comparison of LibraryThing Tags and Library of Congress Subject Headings[J]. Journal of Information Science, 2010, 36(6): 763-779. [本文引用:1]
[3] 李蕾, 王冕, 章成志. 区分标签类型的社会化标签质量测评研究[J]. 图书情报工作, 2013, 57(23): 11-16.
(Li Lei, Wang Mian, Zhang Chengzhi. Quality Evaluation of Social Tagging Based on the Type of Tags[J]. Library and Information Service, 2013, 57(23): 11-16. ) [本文引用:1]
[4] Mirzaee V, Iverson L. Tagging: Behaviour and Motivations[J]. Proceedings of the American Society for Information Science & Technology, 2009, 46(1): 1-5. [本文引用:4]
[5] Golder S A, Huberman B A. Usage Patterns of Collaborative Tagging Systems[J]. Journal of Information Science, 2006, 32(2): 198-208. [本文引用:1]
[6] Farooq U, Kannampallil T G, Song Y, et al. Evaluating Tagging Behavior in Social Bookmarking Systems: Metrics and Design Heuristics [C]. In: Proceedings of the 2007 International ACM Conference on Supporting Group Work. 2007: 351-360. [本文引用:1]
[7] Wang X, Kumar S, Liu H. A Study of Tagging Behavior Across Social Media [C]. In: Proceedings of the 2011 SIGIR Workshop on Social Web Search and Mining, Beijing, China. 2011. [本文引用:2]
[8] Lin C S, Chen Y F. Examining Social Tagging Behaviour and the Construction of an Online Folksonomy from the Perspectives of Cultural Capital and Social Capital[J]. Journal of Information Science, 2012, 38(6): 540-557. [本文引用:2]
[9] Guyot A. Understand ing Booksonomies: How and Why are Book Taggers Tagging [D]. Aberystwyth: University of Wales, 2013. [本文引用:3]
[10] Tsai L C, Hwang S L, Tang K H E. Analysis of Keyword- based Tagging Behaviors of Experts and Novices[J]. Online Information Review, 2011, 35(2): 272-290. [本文引用:2]
[11] Špiranec S, Ivanjko T. Experts vs. Novices Tagging Behavior: An Exploratory Analysis [C]. In: Proceedings of the 2nd International Conference on Integrated Information, Budapest, Hungary. 2013: 456-459. [本文引用:1]
[12] Chen Y N, Ke H R. An Analysis of Users’ Behaviour Patterns in the Organisation of Information: A Case Study of CiteULike[J]. Online Information Review, 2013, 37(4): 638-656. [本文引用:1]
[13] 吴丹, 许小梅. 图书馆与图书分享网站的用户标注行为比较研究[J]. 图书情报知识, 2013(1): 85-93.
(Wu Dan, Xu Xiaomei. A Comparative Study of User’s Tagging Behaviors in Libraries and Book Sharing Websites[J]. Document, Information & Knowledge, 2013(1): 85-93. ) [本文引用:3]
[14] 常唯. 网络环境中用户标注对数字资源利用的影响研究[D]. 北京: 中国科学院文献情报中心, 2009.
(Chang Wei. A Study of Effect of User Annotation on the Use of Digital Resources on the Interact [D]. Beijing: National Science Library, Chinese Academy of Sciences, 2009. ) [本文引用:1]
[15] Strohmaier M, Körner C, Kern R. Why do Users Tag? Detecting Users’ Motivation for Tagging in Social Tagging Systems [C]. In: Proceedings of the 4th International AAAI Conference on Weblogs and Social Media, Washington, DC, USA. 2010. [本文引用:1]