数据分析与知识发现, 2022, 6(7): 56-69 doi: 10.11925/infotech.2096-3467.2021.1449

研究论文

在线社区用户画像及自我呈现主题挖掘——以网易云音乐社区为例*

吴江1,2,3, 刘涛3, 刘洋,1,3

1武汉大学信息资源研究中心 武汉 430072

2武汉大学电子商务研究与发展中心 武汉 430072

3武汉大学信息管理学院 武汉 430072

Mining Online User Profiles and Self-Presentations: Case Study of NetEase Music Community

Wu Jiang1,2,3, Liu Tao3, Liu Yang,1,3

1Center for Studies of Information Resources, Wuhan University, Wuhan 430072, China

2Center for E-commerce Research and Development, Wuhan University, Wuhan 430072, China

3School of Information Management, Wuhan University, Wuhan 430072, China

通讯作者: 刘洋,ORCID:0000-0002-9410-1755,E-mail:yang.liu27@whu.edu.cn

收稿日期: 2021-12-24   修回日期: 2022-02-19  

基金资助: *国家教育部哲学社会科学研究重大课题攻关项目的研究成果之一(20JZD024)

Corresponding authors: Liu Yang,ORCID:0000-0002-9410-1755,E-mail:yang.liu27@whu.edu.cn

Received: 2021-12-24   Revised: 2022-02-19  

Fund supported: Key Projects of Philosophy and Social Sciences Research, Ministry of Education(20JZD024)

摘要

目的】以网易云音乐社区为研究对象,分析在线社区中用户自我呈现的内容特征、演化规律、群体差异及自我呈现对社区认可的影响等问题。【方法】从资历和参与度两个维度构建用户画像,通过BERT方法进行短文本评论聚类,挖掘自我呈现的内容主题,利用余弦相似度等方法分析用户自我呈现内容主题的演化规律和群体差异,采用协方差分析用户自我呈现内容主题对社区认可度的影响。【结果】用户自我呈现的内容主题分为8类;“听后感”主题占比逐年降低,“回忆往事”等主题呈上升趋势;“寻求互动”等主题在“放松”等曲风下占比要高于其他曲风;除“寻求互动”主题外,各主题在不同时间点上占比一致;“回忆往事”等主题下高资历用户的余弦相似度高于低资历用户;持续参与用户的余弦相似度高于边缘参与者;用户自我呈现内容主题对其社区认可度的影响在10%的置信度水平下显著。【局限】 未针对其他类型的在线社区进行更深入的研究。【结论】用户自我呈现的内容主题以“回忆往事”为主,会受到曲风等因素的影响,内容主题随社区发展呈现泛化趋势且不同用户群体之间有明显差异,在线社区中用户对自我呈现内容主题有一定的偏好。

关键词: 自我呈现; 用户画像; BERT主题聚类; 群体差异; 在线社区

Abstract

[Objective] This paper explores patterns, evolutionary laws, group differences and influences on community recognition of online users’ self-presentation topics. [Methods] Firstly, we identified online users of NetEase music community and constructed their profiles from the perspectives of qualification and participation. Then, we adopted the BERT model to cluster users’ short comments, and identified their self-presentation topics. Third, we utilized cosine similarity to analyze the evolution of topics and group differences. Finally, we used covariance to analyze the impacts of self-presentation topics on community recognition. [Results] There are eight self-presentation topics, while the proportion of “reviews” decreased and “recollection” increased. “Interaction”topics were more popular in “relax” style than in others. The proportion of each topic at different time was almost the same. Under the themes of “recollection”, the cosine similarity value of quality users was higher than those of other users. The cosine similarity of continuous participants was higher than those of the inactive participants. The impact of users’ self-presentation topics on their community recognition was significant at the 0.1 level. [Limitations] More research is needed to examine users of other online communities. [Conclusions] “Recollection” is the most popular one among users’ self-presentation topics, which are affected by styles and time. There was a diversity trend for the topics with the development of the community, as well as obvious differences among user groups.

Keywords: Self-Presentation; User Profile; BERT Topic Clustering; Group Differences; Online Community

PDF (1742KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

吴江, 刘涛, 刘洋. 在线社区用户画像及自我呈现主题挖掘——以网易云音乐社区为例*[J]. 数据分析与知识发现, 2022, 6(7): 56-69 doi:10.11925/infotech.2096-3467.2021.1449

Wu Jiang, Liu Tao, Liu Yang. Mining Online User Profiles and Self-Presentations: Case Study of NetEase Music Community[J]. Data Analysis and Knowledge Discovery, 2022, 6(7): 56-69 doi:10.11925/infotech.2096-3467.2021.1449

1 引言

2021年的《中国数字经济发展白皮书》指出:“要以数字技术为核心驱动力,以现代信息网络为重要载体,通过数字经济与实体经济深度融合,不断提高数字化、网络化、智能化水平,加速重构经济发展与治理模式的新型经济形态。”在线社区作为数字经济的现代信息网络载体之一,在数字经济发展的过程中将扮演越发重要的角色。在线社区的建设与发展离不开在线社区的用户,以在线社区中用户产生的图文内容、行为等信息为基础,了解用户需求和偏好,已经成为主流在线社区改进自身产品与服务的重要方式[1],因此在线社区的用户行为得到学界和业界的关注。

自我呈现是在线社区中一种常见的用户行为,指在线社区的用户通过表露自我获得社区中其他用户的认同并建立关系的社会化现象和行为[2]。与线下的即时性人际交往和社会互动相比,在线社区提供的相对安全的社交环境让用户能够最大限度地掌控自我表达的内容[3],用户甚至可以尝试在不同的场景展示不同的个性,扮演不同的角色,享受高度自由所带来的喜悦[4]。自我呈现所带来的愉悦感能够让用户产生对社区的依赖,而依赖感则会影响社区成员的认知和行为[1],用户的自我呈现行为也随之产生相应改变,最终在社区中形成正向的循环。由此可见,用户自我呈现行为对用户的社区依赖有重要作用,甚至已经成为用户参与在线社区的重要动机[2]。但目前学者们还较少关注不同群体自我呈现的差异、在线社区用户自我呈现内容主题的演化等领域。

在线音乐社区是目前主流的在线社区之一,《2020年中国在线音乐行业发展专题研究报告》指出,2021年中国数字音乐市场规模预计将达到428.9亿元,手机音乐APP用户则预计高达6.45亿人[5]。网易云音乐社区是国内在线音乐社区的典型代表,用户在社区中可通过音乐评论自由地表达经历和抒发情感。同时,网易云音乐社区的用户往往有着相似的价值观念与兴趣爱好,用户参与积极性也较高,用户之间也更容易产生情感共鸣[6],因此,网易云音乐社区的用户自我呈现也具有一定的典型性和代表性。本文以网易云音乐社区为例,利用BERT方法进行用户评论聚类,识别用户自我呈现的内容主题,结合用户画像和评论属性,分析网易云音乐社区用户的自我呈现行为,揭示自我呈现内容主题的演化规律、群体差异及用户自我呈现内容主题对社区认可的影响。本研究一方面拓展了自我呈现的研究视角,另一方面,从实践角度帮助社区运营者理解用户自我呈现行为,分析用户需求,制定合理的社区用户运营策略,推动社区的发展,为在线社区带来实际效益。

2 文献综述

2.1 在线社区研究现状

在线社区也被称为虚拟社区,是Rheingold在20世纪90年代提出的概念,他认为在线社区是“一群利用互联网进行互动,彼此之间有一定程度的了解,且在网络中分享信息和知识的人们形成的团体”[7],在线社区具有以互联网为载体、具备一定社区成员规模、成员有共同的兴趣和目标等特点,对在线社区而言,成员的互动程度和参与度是其兴衰的关键,经济价值和社会价值是其竞争力的立足点[8]

国内外学者基于不同的理论与模型,极大地丰富了在线社区的研究内容与研究视角。研究对象多为在线医疗社区、在线问答社区、企业品牌社区等,常见的研究方向有在线社区中评论的情感识别与聚类、在线社区用户画像、在线社区用户行为等。在线社区的用户行为是在线社区研究领域的热点,常见的如用户的参与行为、贡献行为、分享行为等,Bagozzi等在目标导向型行为模型中加入群体规范和社会认同感两个因素探究成员参与在线社区的个人和社会驱动因素[9];张薇薇等利用扎根理论的方法,揭示在线健康社区中用户持续参与动机的演变,发现了用户外在参与动机内化的影响因素及促使用户持续参与的三种内在需求[10];吴江等则研究了在线社区中用户的知识共享网络和知识互动行为[11];秦敏等以亲社会行为为基础,揭示不同类型的在线产品创新社区中,用户主动贡献行为的影响因素[12]。此外,围绕用户行为对用户角色进行分类和研究用户角色转变的影响因素也是在线社区的一个重要研究方向,如王哲等将在线社区中用户的角色分为边缘参与者、初始参与者、持续参与者、重要成员4种类型[13];赵欣等从动态视角出发,运用计划行为理论探究社区中用户由知识搜寻者转变为知识贡献者的内在机理[14]

2.2 自我呈现研究现状

自我呈现又被称为印象管理,指为了他人按照自我的愿望看待自己而刻意进行的自我展示,即个体为与他人沟通而表现的一系列行为[15],旨在建立、维持或提升自我在他人心目中的形象[16]。Jones等认为自我呈现是出于自我增强的动机,人们刻意操纵自己的表现行为,使目标观众对自我形象进行趋好归因的行为策略[17];Baumeister从社会认同的角度出发,认为自我呈现是人际交往过程中,人们为了建立或维持自我在目标观众心中的形象,有意识地进行自我与他人的信息传递[18];Schlenker认为自我呈现是在社会交往中,人们有意或无意控制自己所呈现的形象的过程[19]

学者们从不同角度阐述用户自我呈现的影响:Wang等认为自我呈现满足了个体自我表达的需要[20];Gibbs等指出自我呈现对发展在线关系具有积极影响,用户也可以从中获得社会支持[21];Lee等也认为自我呈现能够增进自身的幸福感[22];也有学者从社会交换角度出发,认为个体在进行自我呈现的时候,会期望他人也进行自我呈现,互相交换信息或展开互动,从而增加彼此间的亲密程度[23]。也有学者结合具体的情景探讨自我呈现的作用,Xie等证明青少年的自我呈现能够显著降低其负面情绪[24];刘容等的研究表明在社会化商务情境下,商家的自我呈现对顾客的信任有正向影响[25];Kim等发现社交网站中用户的自我呈现能够显著预测其生活满意度[26];杨强等证明了自我呈现在身份认同型产品信息对消费者社区分享意愿的影响作用中的调节作用[2]

用户在参与在线社区互动的过程中,也会为达成特定目的而进行选择性的表达,以维持在线社区中的关系或扩大自己在社区中的影响力[27]。事实上,现有研究已经证实了自我呈现内容的选择的确会对用户得到的尊重产生影响[28]。同时,相较于现实中的自我呈现,线上的环境更加可控,用户可以有更多的精力进行思考,因此在自我呈现时也更加具有策略性[29]。Jones等提出用户通常会呈现5种内容,分别为自我推销、逢迎讨好、恳求祈祷、恐吓威胁和榜样示范[17];Kim等认为用户在网络交往中会采用积极的自我呈现和真实的自我呈现两种内容进行自我表达,前者是指用户选择性地呈现积极正面的个人信息,后者则是用户呈现自我的真实情况[26]。Bouvier提出用户在Facebook上的自我呈现内容分为4种类型:身份的呈现、关系的呈现、生理外貌的呈现、个人行为及思绪的呈现[30]

2.3 研究框架

目前在线社区的研究多以在线健康社区、在线问答社区、企业品牌在线社区等为研究对象,专注于揭示影响用户行为的因素;自我呈现的研究多以Facebook或博客等在线社区为研究对象,探讨自我呈现的定义、分类、成因和影响等。以往学者对用户自我呈现的研究为本研究理解在线社区中的用户自我呈现行为提供了基础,在线社区中的用户角色研究及用户自我呈现内容研究也对本研究的开展具有重要的启发意义。

本文研究框架如图1所示,数据预处理后,将数据分为用户评论、用户行为属性及评论属性(如评论时间等)三类。在实验设计方面,利用BERT对用户评论进行主题聚类,通过对比LDA的聚类结果获得最佳的聚类方法和聚类数,构建用户自我呈现内容主题;利用用户行为属性,从用户资历和用户参与度两个角度进行用户角色分类并构建用户画像;在用户自我呈现行为分析部分,采用计算自我呈现内容主题与用户角色的余弦相似度等方法,分析在线社区中用户自我呈现的群体差异和演化特征,最终利用协方差分析用户自我呈现内容主题对社区认可度的影响。

图1

图1   在线社区中用户自我呈现行为的研究框架

Fig.1   Research Framework of Users’ Self-presentation in Online Community


3 实验设计

3.1 数据采集与处理

本研究以网易云音乐社区提供的12种曲风分类(怀旧、清新、浪漫、伤感、治愈、放松、孤独、感动、兴奋、快乐、安静、思念)为基础,共计获得75 546首歌曲。以评论总数超过1 000作为依据筛选歌曲,获得34 859首歌曲,利用Python共获得3 200余万条音乐评论。由于多数评论文字过少,且夹杂着各种外文符号、表情符、连接符等,导致评论包含的信息有限,可能会对最终的实验结果产生影响,因此本研究结合正则表达式和SQL查询语句,筛选汉语文本长度不少于70字的评论,进一步筛查剔除无效的评论文本,最终获得463 687条评论,并保留评论时间、评论获赞及评论人等信息。

不同曲风下的评论数量分布如图2所示,“感动”曲风下的评论数量最多,“快乐”曲风下的评论数量最少。

图2

图2   不同曲风下的评论数量

Fig.2   Number of Comments for Different Style


不同长度的评论数量分布如图3所示,评论长度主要集中在85个汉字到145个汉字之间。

图3

图3   不同长度的评论数量

Fig.3   Number of Comments for Different Length


在采用百度停用词表和Jieba分词工具对获得的评论文本进行去停用词、分词操作后,构建语料库,为后续的研究提供支持。以上数据采集与处理环节均在CentOS7操作系统及Python3.9开发环境下,调用Python第三方库完成。

3.2 用户画像构建

(1) 用户画像指标

Cooper最早提出用户画像的概念,将其定义为“基于用户真实数据的虚拟代表”,即根据用户动机、行为等划分用户的类型,并从中抽取每类用户的共同特性[31]。本文从用户资历、用户参与度两个角度构建用户画像,相关属性定义如表1所示。

表1   基础属性定义

Table 1  Variables Definition

属性字段英文名称
用户资历注册时间days
粉丝数fans
歌单被订阅数subscribe
用户付费vip
用户付费等级数viplevel
用户参与度用户创建歌单数playlist
用户创建动态数event
关注数follows

新窗口打开| 下载CSV


本文用户画像构建过程如图4所示,将用户资历和用户参与度作为衡量指标,按照用户的资历将用户分为4个等级,按照用户的参与度将用户划分为边缘参与者、初始参与者和持续参与者三种类型。

图4

图4   用户画像构建方法

Fig.4   Construction Method of User Profile


(2) 用户资历

本文参照王凌霄等定义用户资历的方法,认为用户资历由用户的社区年龄和用户的社区影响力构成[32]。用户的社区年龄由用户的注册时间反映,用户的社区影响力由粉丝数、歌单被订阅数反映,本文考虑到网易云音乐社区的用户付费后可以获得作品曝光、个性皮肤和挂件等特权,认为用户付费和用户付费等级也是用户影响力的一种体现。

将用户的社区年龄与用户的影响力作为用户资历的指标时,需要考虑用户社区年龄对用户影响力存在的影响,如早期的用户可能更加容易获得粉丝,更倾向于付费等。注册天数与粉丝数、歌单被订阅数及付费等级的皮尔斯(Pearson)系数如表2所示,用户注册天数与用户粉丝数、歌单被订阅数的Pearson系数较小,因此认为其基本不相关,但注册天数与用户付费等级的Pearson系数达0.244 4,因此计算用户资历需要考虑用户的付费行为。

表2   注册天数与粉丝数、歌单被订阅数及付费等级的Pearson系数

Table 2  Pearson Values Between days and fans, subscribe, viplevel

days
fans0.020 8
subscribe0.015 3
viplevel0.244 4

新窗口打开| 下载CSV


对用户的注册时间进行归一化处理,获得用户的社区年龄指标,如公式(1)所示。

Tindex=days-mindaysmaxdays-mindays

由于用户粉丝数和歌单被订阅数两个变量属于非均匀分布数据,在一定区间内具有稠密特征,其数据分布如表3所示。

表3   用户粉丝数、歌单被订阅数的数据分布

Table 3  Distribution of fans, subscribe

数值fans(比例)subscribe(比例)
[0,5)46.13%87.21%
[0,10)67.70%92.77%
[0,20)84.19%95.70%
[0,50)94.35%97.62%
[0,100)97.10%98.37%

新窗口打开| 下载CSV


因此本文采用与王凌霄等相一致的方法[32],利用Sigmoid函数将数据稠密区间进行扩大的同时,将数据稀疏的区间进行压缩[32-34]。对用户的粉丝数和用户的歌单被订阅数进行处理的Sigmoid函数如公式(2)所示,其中i分别代表fans、subscribe

Xindexi=11+e-xi-x-i

最终获得用户资历,计算方法如公式(3)所示。

Eindex=α×Tindex+βi×Xindexi+γ×vip×V

其中,vip为用户是否付费,付费为1,反之为0,由于用户付费等级viplevel同样为用户稠密特征,因此用Sigmoid函数处理后得到变量V,αβiγ分别代表对应的权重,αβi取值为1,考虑到用户付费等级数与用户注册时间的相关关系,因此将γ赋值为0.244 4。升序排列后,取用户资历指标Eindex前25%用户为L1级别的用户资历群体,26%~50%为L2级别的用户资历群体,51%~75%为L3级别的用户资历群体,其他为L4级别的用户资历群体。

(3) 用户参与度

本文选用用户在网易云音乐社区中“创建歌单”、“发布动态”及“关注”行为作为区分用户参与度的衡量指标,并参照王哲等对在线社区中用户角色类型的划分,将用户角色分为边缘参与者、初始参与者、持续参与者三种类型[13]。边缘参与者主要特征为基本不发帖、贡献很少;初始参与者偶发性做出贡献,间断性参加社区活动;持续参与者代表为社区提供持续性的内容,做出贡献的参与者。

考虑到不同用户角色的划分本质上由用户主要行为决定,因此本文参照盛姝等的方法[35],对用户角色的识别方法如下,其中i代表第i个用户,B1B2B3分别代表用户创建歌单数、用户创建动态数和用户关注数。

①持续参与者:B1iB1¯B2iB2¯时,判定为持续参与者,如果B1iB2i中仅有一项大于等于均值,但另一项大于B3i,亦判定为持续参与者;

②初始参与者:如果B1iB2i中仅有一项大于等于均值,另一项小于等于B3i,则判定为初始参与者,如果B1iB2i均小于均值,但B1i+B2i2>B3i,亦判定为初始参与者;

③边缘参与者:如果B1iB2i均小于均值,且B1i+B2i2B3i,判定为边缘参与者。

3.3 主题聚类

(1) BERT主题聚类

隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是近年来常被用于识别大规模语料库中所隐藏的主题信息的热点方法[36],但由于LDA模型遵循词袋假设,忽略了词语之间的相关性[37],且在处理短文本时,容易出现词频偏低导致词频无法成为主题判别依据的问题,并不适合本文实验,因此尝试利用BERT(Bidirectional Encoder Representations from Transformers)模型进行网易云音乐社区自我呈现内容的主题聚类。

BERT以注意力机制模型为基础搭建,利用Masked Language Model和Next Sentence Prediction两种方法捕捉词语和句子级别的表示,采用降噪自编码的方式进行模型训练[38],因此能够较好地适应自然语言处理的下游任务。此外,BERT能够较好地基于句子或段落级别的短文本(长度小于512个词的文本)处理任务,同时相较于Word2Vec等静态词嵌入方式,BERT的动态词嵌入也能够更好地理解语句本身的含义[39]

本文采用BERT模型的“预训练+微调”的迁移学习方式,遵循“嵌入-降维-聚类-表征”的步骤进行主题聚类和识别,选择谷歌公布的基于中文维基百科等大规模训练语料生成的多语言嵌入模型distilbert-base-nli-mean-tokens作为BERT的预训练模型进行文本嵌入,采用能够较高程度保留原始维度的特征的一致流形逼近和投影(Uniform Manifold Approximation and Projection,UMAP)降维算法将原始的向量降维至10维[40],最后利用K-means聚类算法完成聚类,与其他聚类方法相比,K-means聚类具有运算速度快、适合大规模的语料计算且能够克服短文本内容稀疏问题等优点[41]

(2) 主题数选择

Röder等证明主题一致性是最符合人类理解的度量指标,因此本文采用主题一致性作为评估最优主题数的方法[42]。主题一致性的主要思想是如果生成的主题易于解释,那么属于同一主题的词汇在语料中共同出现的频率会更高[40]。主题一致性的计算方法如公式(4)所示。

Ck=m=2Ml=1mlogNvmk,vlk+1Nvlk

V k=(vk1,vk2,vk3vkm)为主题kM个顶部单词的词空间,Nv)代表包含词v的评论数量,Nv1,v2)表示同时包含词语v1,v2的评论数量。

BERT在不同主题数下的一致性值如图5所示,本文同时对比了BERT和LDA两种主题聚类结果的一致性值。当主题数小于9时,BERT聚类得到的结果一致性值维持在0.5左右,LDA维持在0.4左右;当主题数大于9时,两种方法的聚类结果出现不同的趋势,BERT聚类结果的可解释性出现小幅度提高,一致性值稳定在0.55左右,并在主题数为26时出现峰值,而LDA的一致性值则大幅度下降,主题的可解释性变差。

图5

图5   BERT及LDA聚类结果对比

Fig.5   Clustering Results of BERT and LDA


综合而言,在任意主题数下,BERT聚类结果的主题一致性值均要明显大于LDA聚类结果,且当主题增多时,BERT聚类结果的可解释性变强,这也验证了BERT方法应用于网易云音乐社区短文本评论聚类的优越性。另外,当主题数为26时,主题一致性值最大,生成的主题更易于解释,因此本文设定最佳主题数为26。

3.4 群体差异特征提取

为提取不同的用户角色在自我呈现内容主题上的群体差异,本文借用计算微博主题与用户行为关联时的方法[43],计算主题向量与用户角色向量之间的余弦相似度获得相关关系,从而依据不同角色与不同主题之间的关联度得到自我呈现内容主题的群体差异,计算方法如公式(5)所示。

dij=t=1s(Ajt×Bit)t=1sAjt2×t=1sBit2

其中,s为评论数,Ajt代表评论t的用户隶属于主题j的概率,Bit表示当评论t的用户为用户角色i时,值为1,反之为0。

具体计算步骤如下:

(1)将s条评论隶属于m个主题的概率值构造为ms维的向量(A1,A2,…,Am),度量评论隶属于某一主题的概率值P的计算方法如公式(6)所示[44]

P=bi-aibi

其中,ai)表示评论i到某一主题聚类中心的欧氏距离,bi)表示评论i到其他主题聚类中心的最大欧氏距离。

(2)将n种用户角色值构造为ns维的向量(B1,B2,…,Bn)。

(3)计算(A1,A2,…,Am)与(B1,B2,…,Bn)之间的余弦相似度,最终得到矩阵T如公式(7)所示。

T=d11d21dn1d12d1md22dn2d2mdnm

矩阵T的数据反映了自我呈现内容主题与用户角色之间的相关性,T中的元素值越大代表自我呈现内容主题与用户角色的相关性越高。

4 结果分析

4.1 自我呈现内容分析

在获得聚类生成的簇后,利用基于簇的c-TF-IDF方法,将同一主题下的文档进行关键词提取,实现自我呈现内容主题的表征。c-TF-IDF的计算方法如公式(8)所示。

c-TF-IDFit=tiwi×logmjntj

其中,ti表示词语t在簇i中的出现次数,wi表示簇i的总词语数,m表示文档总数,n表示总簇数。

根据网易云音乐社区中用户的个人情感分类和与他人情感互动分类[6]、Facebook自我呈现内容分类等方面的研究[30],对相似的主题进行归类合并,最终结果如表4所示。可知,网易云音乐中的用户自我呈现内容以“回忆往事”为主,“人生感悟”、“留言”、“听后感”及“天马行空”的内容也是用户自我呈现的重要组成部分,占比均超过10%,而“寻求互动”的自我呈现内容占比最少,这也从侧面反映了在网易云音乐社区中用户的“弱社交”关系作用下,用户自我呈现内容更加倾向于表达自我而非与他人互动。

表4   自我呈现内容主题

Table 4  Topics of Users’ Self-presentation

主题识别含义主题占比关键词
回忆往事与用户过往经历有关的故事,如爱情、亲情、学生时代的经历等Topic 13.95%男孩、女孩、喜欢、朋友、分手
Topic 44.40%小学、学生、同学、学习、音乐
Topic 87.26%对不起、我爱你、放弃、别人
Topic 108.69%感觉、也许、时间、再也无法
Topic 145.93%高三、学校、三年、想起
Topic 162.81%初中、女孩、学生、暑假、脑海
Topic 255.10%变好、姑娘、不够、埋怨、真心
人生感悟用户抒发的人生感想与体会Topic 34.86%希望、世界、孤独、放弃、发现
Topic 247.43%思念、淡化、每个人、永远
留言用户借歌曲评论区留言祈福、设定目标等Topic 23.67%高考、一年、加油、时间、大学
Topic 62.47%努力、鼓励、考生、可能、转折
Topic 137.01%想要、决定、做梦、目标、向前
歌曲信息与歌曲相关的信息,如歌手、歌曲推荐等Topic 180.19%几首歌、谢安琪、欢乐颂、老樊
Topic 201.74%重温、风格、韵律、原曲、吉他
Topic 260.67%声音、纯音、佳作、创作、理解
听后感用户对歌曲的评价及歌曲给自身带来的感受Topic 75.47%听到、好听、一首歌、循环
Topic 174.55%好难过、挥之不去、歌单、那句
Topic 231.84%小众、不敢、平静、温馨、怀念
寻求互动用户表露互动的行为,如求赞等Topic 150.04%上午好、中午好、祝老板、点赞
Topic 210.10%网恋么、有没有、有人么、陪你
天马行空用户天马行空的想法与评论,一般与歌曲无太多的关系Topic 90.32%周游、摇滚、大佬、战袍、兰姨
Topic 114.36%嘿嘿、豪任、摇起来、呵呵
Topic 120.03%难熬、寡呱、打卡、指挥官
Topic 198.38%抵挡、返回、红蜡烛、提醒
Topic 222.47%苏联、红军、多边形、国民
当前状态用户当下所处的环境或状态等Topic 56.26%晚上、生日、降温、加班、现在

新窗口打开| 下载CSV


4.2 自我呈现内容主题演化分析

2015年至2021年以来用户自我呈现内容主题差异如图6所示。用户在网易云音乐社区中的自我呈现内容主题表现出明显的演化趋势,具体为“听后感”、“歌曲信息”的自我呈现内容主题持续下降,两者的下降幅度分别达到53%和58%,而“当前状态”、“回忆往事”、“留言”等均呈现出上涨趋势,这说明随着时间的推移,网易云音乐社区中的用户不再仅仅围绕音乐进行评论,而表现出明显的泛化:用户以评论的形式或讲述自己亲身的经历、或阐述人生感悟,从而引发其他用户的共鸣,表明用户愿意将社区作为自身的依赖,进行更深度的自我呈现与情感宣泄。

图6

图6   不同年份下用户的自我呈现内容主题分布

Fig.6   Distribution of Users’ Self-presentation Topics at Different Year


不同曲风及不同时间点下的用户自我呈现内容主题分布如图7图10所示。

图7

图7   不同曲风下的用户自我呈现内容主题分布

Fig.7   Distribution of Users’ Self-presentation Topics at Different Style


图8

图8   不同曲风下的用户自我呈现内容主题占比

Fig.8   Proportion of Users’ Self-presentation Topics at Different Style


图9

图9   不同时间下的用户自我呈现内容主题分布

Fig.9   Distribution of Users’ Self-presentation Topics at Different Time


图10

图10   不同时间下的用户自我呈现内容主题占比

Fig.10   Proportion of Users’ Self-presentation Topics at Different Time


图7图8显示,“感动”、“怀旧”及“思念”曲风的音乐下,用户更愿意进行自我呈现,从用户自我呈现内容主题分布来看,“寻求互动”、“听后感”及“歌曲信息”的主题在较为活跃的曲风下占比较低,而在其他的曲风下,如“放松”、“快乐”、“浪漫”等曲风下,占比则要明显高于其他自我呈现内容主题,表明用户在怀旧等环境中更愿意进行深度自我呈现,阐述自己的故事或感悟,而在轻松愉快的氛围下则更愿意进行具有互动性质的自我呈现。

图9图10表明用户的自我呈现活跃度呈现明显的时间性,用户自我呈现内容主题在各时间段上也表现出较为一致的分布趋势,但“寻求互动”的自我呈现内容的峰值要明显早于其他自我呈现内容主题的峰值。

4.3 自我呈现内容主题的群体差异分析

用户的自我呈现内容主题一定程度上能够反映用户在社区中的主观态度与实际需求。本文利用余弦相似度的方法探究不同用户群体与26种自我呈现内容主题之间的相似度,将用户群体从用户资历(4类)和用户参与度(3类)两个维度进行分类,获得的余弦相似度越接近1,说明该类用户群体与该主题越相近,最终结果如表5表6所示。

表5   用户资历与自我呈现内容主题余弦相似度

Table 5  Cosine Similarity Between Users’ Qualification and Self-presentation Topics

主题L1L2L3L4
Topic 181.58%2.09%2.51%3.92%
Topic 13.23%4.24%5.14%8.09%
Topic 43.68%4.87%5.87%9.15%
Topic 83.57%4.74%5.72%9.06%
Topic 103.51%4.66%5.58%8.74%
Topic 143.53%4.70%5.68%8.84%
Topic 161.77%2.36%2.85%4.40%
Topic 253.74%4.93%5.94%9.32%
Topic 21.39%1.85%2.29%3.50%
Topic 62.11%2.81%3.39%5.24%
Topic 133.70%4.90%5.91%9.25%
Topic 33.58%4.77%5.71%8.97%
Topic 243.67%4.89%5.87%9.17%
Topic 91.11%1.45%1.75%2.77%
Topic 113.18%4.19%5.06%8.02%
Topic 222.79%3.70%4.47%6.92%
Topic 211.67%2.19%2.66%4.17%

新窗口打开| 下载CSV


表6   用户参与度与自我呈现内容主题余弦相似度

Table 6  Cosine Similarity Between Users’ Participation and Self-presentation Topics

主题边缘参与者初始参与者持续参与者
Topic 52.68%2.41%16.02%
Topic 232.69%2.40%15.55%
Topic 262.67%2.39%15.54%
Topic 12.67%2.40%15.63%
Topic 161.48%1.32%8.59%
Topic 21.16%1.02%6.84%
Topic 61.76%1.57%10.22%
Topic 90.91%0.81%5.36%
Topic 192.48%2.24%15.04%
Topic 150.38%0.34%2.26%
Topic 211.38%1.24%8.07%

新窗口打开| 下载CSV


(1)用户资历与自我呈现内容的关系:表5所示的自我呈现内容主题集中在“回忆往事”、“留言”、“人生感悟”和“天马行空”4个方面,且随着用户资历的增长,其余弦相似度均呈现比较明显的上升。

(2)用户参与度与自我呈现内容的关系:表6所示的自我呈现内容主题分布较为均匀,除“人生感悟”主题外,各个主题均有明显涉及,边缘参与者和初始参与者与各主题的相似度相近,但持续参与者要显著高于边缘参与者和持续参与者。

综上所述,不同资历的用户在“回忆往事”、“留言”、“人生感悟”及“天马行空”4种自我呈现内容上有比较明显的差异,资历越高的用户越愿意进行此种内容的自我呈现。不同参与度的用户在自我呈现内容主题上没有明显区别,但持续参与的用户与各主题的相关性要明显高于其他参与度的用户。这在一定程度上也印证了社会认同理论所阐述的个体所获得的群体成员身份对个体社会行为的影响[45]

4.4 自我呈现内容主题对社区认可度的影响

为进一步探究网易云音乐社区中自我呈现内容主题对获得社区认可度的影响,本文以评论获赞量作为社区认可度的衡量指标,将其作为因变量,以自我呈现内容主题为自变量,同时考虑音乐曲风、评论发表年份及音乐评论总数等因素的影响,加入音乐曲风、评论发表年份及音乐评论总数三个变量并进一步检验了用户自我呈现内容主题与音乐曲风、评论发表年份两个变量的交互项。协方差分析结果如表7所示,其中topic、style、year、comment_num分别代表自我呈现内容主题、音乐曲风、评论发表年份和音乐评论总数。

表7   获赞量的协方差分析结果

Table 7  Covariance Analysis Results

Partial SSdfMSFProb>F
Model7.22×107136531 0454.90.00***
topic1.41×1067201 8091.90.07*
style3.53×10611320 4682.90.00***
year2.73×10764 543 72041.80.00***
comment_num2.29×1051228 7652.10.15
year×topic7.13×10638187 5231.70.00***
style×topic9.28×10673127 1701.20.15
Residual1.17×10910 703108 820

新窗口打开| 下载CSV


用户自我呈现内容主题对社区认可度具有显著影响,同时用户自我呈现的内容主题与评论发表年份的交互项也对社区认可度具有显著影响。这说明在线社区中的用户对不同的自我呈现内容主题有一定的偏好,相较于现实中的自我呈现,在线社区中的环境更加可控,因此,用户可以进行更具策略性的自我呈现,进而扩大自己在社区中的影响力。

5 结语

本文在以往在线社区、自我呈现相关研究的基础上,以国内代表性的在线音乐社区——网易云音乐社区为研究对象,探讨了在线社区中用户的自我呈现内容主题演化趋势、不同用户群体的自我呈现内容主题差异及不同自我呈现内容主题对社区认可度的影响。首先,从用户资历和用户参与度两个维度构建用户画像;其次,利用BERT与LDA对评论进行主题聚类,以主题一致性为依据选定最佳主题数与聚类方法,进一步获得自我呈现内容主题;最后,分别从年份、歌曲曲风和评论时间角度分析用户自我呈现内容主题的演化,并进一步以余弦相似度为指标,探讨自我呈现内容主题的群体差异,利用协方差检验用户自我呈现内容主题对社区认可度的影响。

研究发现,网易云音乐社区用户自我呈现内容主题以“回忆往事”为主;网易云音乐社区中“听后感”、“歌曲信息”主题的评论占比呈现下降趋势;用户在“怀旧”等曲风下更愿意阐述自己的故事或感悟,如“回忆往事”,而在“放松”、“快乐”曲风下则更愿意进行具有互动性质的自我呈现,如“寻求互动”;从用户群体角度来看,资历越高的用户越愿意进行“回忆往事”、“留言”、“人生感悟”及“天马行空”主题的自我呈现,持续参与的用户更愿意进行自我呈现,这也印证了社会认同理论中,群体成员身份对个体社会行为的影响。同时,协方差分析的结果显示,用户自我呈现内容主题对社区认可度也有一定的影响,用户可以进行更具策略性的自我呈现,进而扩大自身的在线社区影响力。

本研究的理论意义在于揭示了在线社区用户自我呈现的内容特征、演化规律、群体差异及自我呈现对社区认可度的影响,丰富了自我呈现的研究视角和研究内容。在实践价值上,本研究的结论能够帮助社区运营者更加深刻地理解用户的自我呈现行为,了解不同群体自我呈现的需求,从而制定有针对性的运营手段,激发用户的社区参与欲望,推动社区的发展。本文的局限性主要为仅以网易云音乐社区为研究对象,所获得的自我呈现内容主题和结论可能具有相应的局限性,未来可将研究对象拓展到其他在线社区。

作者贡献声明

吴江:提出研究思路,进行实验,论文最终版本修订;

刘涛:采集、清洗和分析数据,起草、修改论文;

刘洋:设计研究方案。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: 192853604@qq.com。

[1] 刘涛. NetEaseDATA. 网易云音乐评论数据.

[2] 刘涛. UserDATA. 网易云音乐用户数据.

[3] 刘涛. ResultDATA. 文章结果支撑数据.

参考文献

解学梅, 王丽君.

用户参与对企业新产品开发绩效的影响机理: 基于在线社区视角

[J]. 南开管理评论, 2019, 22(3): 91-102.

[本文引用: 2]

( Xie Xuemei, Wang Lijun.

A Research on the Impact of User Involvement on New Product Development Performance: Online Community-Based View

[J]. Nankai Business Review, 2019, 22(3): 91-102.)

[本文引用: 2]

杨强, 蒋玉石, 周雪, .

产品信息会在朋友圈坚持多久——身份认同与经济奖励对社交媒体用户分享意愿及分享时间的影响研究

[J]. 南开管理评论, 2021, 24(3): 16-29.

[本文引用: 3]

( Yang Qiang, Jiang Yushi, Zhou Xue, et al.

How Long will E-Business Content Stay in WeChat Moments—A Study on the Impact of Identity and Economic Rewards on Social Media Users’ Sharing Willingness and Sharing Time

[J]. Nankai Business Review, 2021, 24(3): 16-29.)

[本文引用: 3]

Walther J B.

Selective Self-Presentation in Computer-Mediated Communication: Hyperpersonal Dimensions of Technology, Language, and Cognition

[J]. Computers in Human Behavior, 2007, 23(5): 2538-2557.

DOI:10.1016/j.chb.2006.05.002      URL     [本文引用: 1]

翟本瑞.

从社区、虚拟社区到社交网络: 社会理论的变迁

[J]. 兰州大学学报(社会科学版), 2012, 40(5): 51-66.

[本文引用: 1]

Zhai Benrui.

Evolution of the Social Theory: From Community, Virtual Community to the Social Network

[J]. Journal of Lanzhou University(Social Sciences), 2012, 40(5): 51-66.)

[本文引用: 1]

艾媒咨询.

2020年中国在线音乐行业发展专题研究报告

[R/OL]. (2021-03-05). [2021-05-05]. https://www.iimedia.cn/c400/77312.html.

URL     [本文引用: 1]

( iiMedia Research. 2020

China Online Music Industry Development Research Report

[R/OL]. (2021-03-05). [2021-05-05]. https://www.iimedia.cn/c400/77312.html. )

URL     [本文引用: 1]

林菲. 网易云音乐社交化研究[D]. 济南: 山东师范大学, 2020.

[本文引用: 2]

( Lin Fei. Research on the Socialization of Netease Cloud Music App[D]. Jinan: Shandong Normal University, 2020.)

[本文引用: 2]

Rheingold H. The Virtual Community: Finding Commection in a Computerized World[M]. Addison-Wesley Longman Publishing Co., Inc., 1993.

[本文引用: 1]

刘珺. 旅游虚拟社区成员参与动机与旅游决策行为的关系研究[D]. 西安: 西北大学, 2018.

[本文引用: 1]

( Liu Jun. Study on the Relationship Between Participation Motivation of Members in Virtual Tourism Community and Decision-Making Behavior in Tourism[D]. Xi’an: Northwest University, 2018.)

[本文引用: 1]

Bagozzi R P, Dholakia U M.

Intentional Social Action in Virtual Communities

[J]. Journal of Interactive Marketing, 2002, 16(2): 2-21.

[本文引用: 1]

张薇薇, 蒋雪.

在线健康社区用户持续参与动机的演变机理研究

[J]. 管理学报, 2020, 17(8): 1245-1253.

[本文引用: 1]

( Zhang Weiwei, Jiang Xue.

Research on Motivational Evolution Mechanism of Users’ Continuous Participation in Online Health Communities

[J]. Chinese Journal of Management, 2020, 17(8): 1245-1253.)

[本文引用: 1]

吴江, 周露莎.

在线医疗社区中知识共享网络及知识互动行为研究

[J]. 情报科学, 2017, 35(3): 144-151.

[本文引用: 1]

( Wu Jiang, Zhou Lusha.

The Study of Knowledge Sharing Network and Users’ Knowledge Interaction in Online Health Community

[J]. Information Science, 2017, 35(3): 144-151.)

[本文引用: 1]

秦敏, 梁溯.

在线产品创新社区用户识别机制与用户贡献行为研究: 基于亲社会行为理论视角

[J]. 南开管理评论, 2017, 20(3): 28-39.

[本文引用: 1]

( Qin Min, Liang Su.

Study on User Recognition Mechanism and Contribution Behavior in Online Innovation Communities: Based on Prosocial Behavior Theory

[J]. Nankai Business Review, 2017, 20(3): 28-39.)

[本文引用: 1]

王哲, 张鹏翼.

学习小组在线知识协作中的用户角色与行为

[J]. 图书情报工作, 2018, 62(7): 77-87.

DOI:10.13266/j.issn.0252-3116.2018.07.009      [本文引用: 2]

<strong>[Purpose/significance]</strong> This paper aims to explore user roles and behaviors in the learning groups' online knowledge collaboration and their collaborative features and distributions. This study will help people better understand behavioral features and distributions of collaborative user roles in the learning groups' collaboration. It will also help information service providers to provide more useful information to different users.<strong>[Method/process]</strong> By the methods of social network analysis (SNA) and cluster analysis, we collected 1096 collaborative log edits from an online course collaboration platform and analyzed them. <strong>[Result/conclusion]</strong> In learning groups' online knowledge collaboration, leaders play a significant leading role,substantial content providers focus on providing contentand have little communications with other users despite some micro-collaboration among themselves. Maintainer corrects the editing vulnerabilities and misbehavior of other roles in the collaboration, and also maintain close relationships with key users in the group. The contribution of social connectors is not quite obvious in learning groups.

( Wang Zhe, Zhang Pengyi.

User Roles and Behaviors in Learning Groups’ Online Knowledge Collaboration

[J]. Library and Information Service, 2018, 62(7): 77-87.)

DOI:10.13266/j.issn.0252-3116.2018.07.009      [本文引用: 2]

<strong>[Purpose/significance]</strong> This paper aims to explore user roles and behaviors in the learning groups' online knowledge collaboration and their collaborative features and distributions. This study will help people better understand behavioral features and distributions of collaborative user roles in the learning groups' collaboration. It will also help information service providers to provide more useful information to different users.<strong>[Method/process]</strong> By the methods of social network analysis (SNA) and cluster analysis, we collected 1096 collaborative log edits from an online course collaboration platform and analyzed them. <strong>[Result/conclusion]</strong> In learning groups' online knowledge collaboration, leaders play a significant leading role,substantial content providers focus on providing contentand have little communications with other users despite some micro-collaboration among themselves. Maintainer corrects the editing vulnerabilities and misbehavior of other roles in the collaboration, and also maintain close relationships with key users in the group. The contribution of social connectors is not quite obvious in learning groups.

赵欣, 王倩雯, 张长征.

从知识搜寻者到知识贡献者——专业虚拟社区用户角色转变的机理研究

[J]. 情报科学, 2017, 35(10): 18-22.

[本文引用: 1]

( Zhao Xin, Wang Qianwen, Zhang Changzheng.

From Knowledge Seeker to Knowledge Contributor: A Research on the Transition of Professional Virtual Community User

[J]. Information Science, 2017, 35(10): 18-22.)

[本文引用: 1]

Liu Z L, Min Q F, Zhai Q G, et al.

Self-Disclosure in Chinese Micro-Blogging: A Social Exchange Theory Perspective

[J]. Information & Management, 2016, 53(1): 53-63.

DOI:10.1016/j.im.2015.08.006      URL     [本文引用: 1]

Zhao S Y, Grasmuck S, Martin J.

Identity Construction on Facebook: Digital Empowerment in Anchored Relationships

[J]. Computers in Human Behavior, 2008, 24(5): 1816-1836.

DOI:10.1016/j.chb.2008.02.012      URL     [本文引用: 1]

Jones E E, Pittman T S.

Toward a General Theory of Strategic Self-Presentation

[J]. Psychological Perspectives on the Self, 1982, 1: 231-262.

[本文引用: 2]

Baumeister R F.

A Self-Presentational View of Social Phenomena

[J]. Psychological Bulletin, 1982, 91(1): 3-26.

DOI:10.1037/0033-2909.91.1.3      URL     [本文引用: 1]

Schlenker B R. The Self Concept, Social Identity, and Interpersonal Relations[M]. Monterey, CA: Brooks/Cole, 1980.

[本文引用: 1]

Wang S S, Stefanone M A.

Showing off? Human Mobility and the Interplay of Traits, Self-Disclosure, and Facebook Check-ins

[J]. Social Science Computer Review, 2013, 31(4): 437-457.

DOI:10.1177/0894439313481424      URL     [本文引用: 1]

Gibbs J L, Ellison N B, Heino R D.

Self-Presentation in Online Personals: The Role of Anticipated Future Interaction, Self-Disclosure, and Perceived Success in Internet Dating

[J]. Communication Research, 2006, 33(2): 152-177.

DOI:10.1177/0093650205285368      URL     [本文引用: 1]

Lee K T, Noh M J, Koo D M.

Lonely People are No Longer Lonely on Social Networking Sites: The Mediating Role of Self-Disclosure and Social Support

[J]. Cyberpsychology, Behavior and Social Networking, 2013, 16(6): 413-418.

DOI:10.1089/cyber.2012.0553      URL     [本文引用: 1]

Park N, Jin B, Jin S A.

Effects of Self-Disclosure on Relational Intimacy in Facebook

[J]. Computers in Human Behavior, 2011, 27(5): 1974-1983.

DOI:10.1016/j.chb.2011.05.004      URL     [本文引用: 1]

Xie X C, Wang X C, Zhao F Q, et al.

Online Real-Self Presentation and Depression Among Chinese Teens: Mediating Role of Social Support and Moderating Role of Dispositional Optimism

[J]. Child Indicators Research, 2018, 11(5): 1531-1544.

DOI:10.1007/s12187-017-9484-5      URL     [本文引用: 1]

刘容, 杨佳伟, 董晓松, .

社会化商务情境下商家自我呈现对顾客信任的影响研究

[J]. 管理学报, 2021, 18(3): 418-425.

[本文引用: 1]

( Liu Rong, Yang Jiawei, Dong Xiaosong, et al.

The Influence of Merchants’ Self-Presentation on Customer Trust in the Context of Social Commerce

[J]. Chinese Journal of Management, 2021, 18(3): 418-425.)

[本文引用: 1]

Kim J, Lee J E R.

The Facebook Paths to Happiness: Effects of the Number of Facebook Friends and Self-Presentation on Subjective Well-Being

[J]. Cyberpsychology, Behavior and Social Networking, 2011, 14(6): 359-364.

DOI:10.1089/cyber.2010.0374      URL     [本文引用: 2]

邬心云. 日志式个人博客的自我呈现心理研究[D]. 武汉: 华中科技大学, 2012.

[本文引用: 1]

( Wu Xinyun. The Psychoanalysis of Self-Presentation on Personal Journal Blog[D]. Wuhan: Huazhong University of Science and Technology, 2012.)

[本文引用: 1]

Bareket-Bojmel L, Moran S, Shahar G.

Strategic Self-Presentation on Facebook: Personal Motives and Audience Response to Online Behavior

[J]. Computers in Human Behavior, 2016, 55: 788-795.

DOI:10.1016/j.chb.2015.10.033      URL     [本文引用: 1]

Leary M R.

Self-Presentation: Impression Management and Interpersonal Behavior

[M]. Routledge, 2019.

[本文引用: 1]

Bouvier G.

How Facebook Users Select Identity Categories for Self-Presentation

[J]. Journal of Multicultural Discourses, 2012, 7(1): 37-57.

DOI:10.1080/17447143.2011.652781      URL     [本文引用: 2]

Cooper A.

The Inmates are Running the Asylum

[M]. Sams, 2006.

[本文引用: 1]

王凌霄, 沈卓, 李艳.

社会化问答社区用户画像构建

[J]. 情报理论与实践, 2018, 41(1): 129-134.

[本文引用: 3]

( Wang Lingxiao, Shen Zhuo, Li Yan.

User Profiling of Social Q & A Community

[J]. Information Studies: Theory & Application, 2018, 41(1): 129-134.)

[本文引用: 3]

刘学之, 杨泽宇, 沈凤武, .

基于S型曲线的指标非线性标准化研究

[J]. 统计与信息论坛, 2018, 33(2): 17-21.

[本文引用: 1]

( Liu Xuezhi, Yang Zeyu, Shen Fengwu, et al.

Research on the Index Non-Linear Standardization Based on S Type Curve

[J]. Statistics & Information Forum, 2018, 33(2): 17-21.)

[本文引用: 1]

俞立平, 阮先鹏, 吴贤豪, .

基于Sigmoid函数的文献计量指标评价标准研究

[J]. 情报杂志, 2020, 39(9): 176-182.

[本文引用: 1]

( Yu Liping, Ruan Xianpeng, Wu Xianhao, et al.

A Study on Evaluation Criteria of Bibliometric Indicators Based on Sigmoid Function

[J]. Journal of Intelligence, 2020, 39(9): 176-182.)

[本文引用: 1]

盛姝, 黄奇, 郑姝雅, .

在线健康社区中用户画像及主题特征分布下信息需求研究——以医享网结直肠癌圈数据为例

[J]. 情报学报, 2021, 40(3): 308-320.

[本文引用: 1]

( Sheng Shu, Huang Qi, Zheng Shuya, et al.

Study of User Information Requirements in an Online Health Community Based on the Distribution of User Profile and Theme Features: Taking Colorectal Cancer Data from Yi Xiang as an Example

[J]. Journal of the China Society for Scientific and Technical Information, 2021, 40(3): 308-320.)

[本文引用: 1]

吴江, 周露莎, 刘冠君, .

基于LDA的可穿戴设备在线评论主题挖掘研究

[J]. 信息资源管理学报, 2017, 7(3): 24-33.

DOI:10.4018/irmj.1994040103      URL     [本文引用: 1]

( Wu Jiang, Zhou Lusha, Liu Guanjun, et al.

The Study of Topic Mining on Online Reviews of Wearable Devices Based on LDA Model

[J]. Journal of Information Resources Management, 2017, 7(3): 24-33.)

DOI:10.4018/irmj.1994040103      URL     [本文引用: 1]

王婷婷, 韩满, 王宇.

LDA模型的优化及其主题数量选择研究——以科技文献为例

[J]. 数据分析与知识发现, 2018, 2(1): 29-40.

[本文引用: 1]

( Wang Tingting, Han Man, Wang Yu.

Optimizing LDA Model with Various Topic Numbers: Case Study of Scientific Literature

[J]. Data Analysis and Knowledge Discovery, 2018, 2(1): 29-40.)

[本文引用: 1]

王思丽, 杨恒, 祝忠明, .

基于BERT的领域本体分类关系自动识别研究

[J]. 情报科学, 2021, 39(7): 75-82.

[本文引用: 1]

( Wang Sili, Yang Heng, Zhu Zhongming, et al.

Research on Automatic Identification of Domain Ontology Classification Relations Based on BERT

[J]. Information Science, 2021, 39(7): 75-82.)

[本文引用: 1]

Lane H, Howard C, Hapke M H.

Natural Language Processing in Action

[M]. Manning, 2019.

[本文引用: 1]

Do V H, Canzar S.

A Generalization of T-SNE and UMAP to Single-Cell Multimodal Omics

[J]. Genome Biology, 2021, 22(1): 130.

DOI:10.1186/s13059-021-02356-5      URL     [本文引用: 2]

王磊, 黄广君.

结合概念语义空间的语义扩展技术研究

[J]. 计算机工程与应用, 2012, 48(35): 106-109.

[本文引用: 1]

查询扩展是在原查询词的基础上加入相关的词或者词组,以克服自然语言的&ldquo;二义性&rdquo;问题,改进查询意愿的描述。在概念语义空间中进行查询词扩展,可以充分挖掘出查询词之间的关联程度,在整体上把握查询意愿。利用WordNet语义词典中的上下文关系和相似度关系为各个原始查询词构建语义树,并将这些语义树向上溯源建立完整的概念语义空间,以共现信息为特征参数对扩展源中的词进行筛选,以避免过度扩展引起查询语义漂移。还引入动态观察窗口加权模型,以强化共现信息对单词之间关联度的表示。实验结果表明,该扩展算法比传统伪相关反馈算法的扩展质量有明显提高。

( Wang Lei, Huang Guangjun.

Research of Semantic Query Expansion Related to Concept Semantic Space

[J]. Computer Engineering and Applications, 2012, 48(35): 106-109.)

[本文引用: 1]

查询扩展是在原查询词的基础上加入相关的词或者词组,以克服自然语言的&ldquo;二义性&rdquo;问题,改进查询意愿的描述。在概念语义空间中进行查询词扩展,可以充分挖掘出查询词之间的关联程度,在整体上把握查询意愿。利用WordNet语义词典中的上下文关系和相似度关系为各个原始查询词构建语义树,并将这些语义树向上溯源建立完整的概念语义空间,以共现信息为特征参数对扩展源中的词进行筛选,以避免过度扩展引起查询语义漂移。还引入动态观察窗口加权模型,以强化共现信息对单词之间关联度的表示。实验结果表明,该扩展算法比传统伪相关反馈算法的扩展质量有明显提高。

Röder M, Both A, Hinneburg A.

Exploring the Space of Topic Coherence Measures

[C]// Proceedings of the 8th ACM International Conference on Web Search and Data Mining. 2015: 399-408.

[本文引用: 1]

张兆阳, 王君领, 黄佳妮, .

重大突发事件期间微博主题与用户行为的关联演化研究

[J]. 信息资源管理学报, 2021, 11(2): 28-38.

DOI:10.4018/irmj.1998070103      URL     [本文引用: 1]

( Zhang Zhaoyang, Wang Junling, Huang Jiani, et al.

Selection of Users’ Behaviors Towards Different Topics in Micro-Blog During the Major Emergency

[J]. Journal of Information Resources Management, 2021, 11(2): 28-38.)

DOI:10.4018/irmj.1998070103      URL     [本文引用: 1]

Rousseeuw P J.

Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis

[J]. Journal of Computational and Applied Mathematics, 1987, 20: 53-65.

DOI:10.1016/0377-0427(87)90125-7      URL     [本文引用: 1]

林燕霞, 谢湘生.

基于社会认同理论的微博群体用户画像

[J]. 情报理论与实践, 2018, 41(3): 142-148.

[本文引用: 1]

( Lin Yanxia, Xie Xiangsheng.

User Portrait of Diversified Groups in Micro-Blog Based on Social Identity Theory

[J]. Information Studies: Theory & Application, 2018, 41(3): 142-148.)

[本文引用: 1]

/