数据分析与知识发现, 2022, 6(2/3): 151-166 doi: 10.11925/infotech.2096-3467.2021.0947

专辑

基于招聘广告的岗位人才需求分析框架构建与实证研究*

岳铁骐, 傅友斐, 徐健,,

中山大学信息管理学院 广州 510006

An Analysis Framework for Job Demands from Job Postings

Yue Tieqi, Fu Youfei, Xu Jian,,

School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China

通讯作者: 徐健,ORCID: 0000-0003-4886-4708,E-mail:issxj@mail.sysu.edu.cn

收稿日期: 2021-08-31   修回日期: 2021-11-17  

基金资助: *中山大学本科教学质量工程项目的研究成果之一(20000-31911130)

Corresponding authors: Xu Jian,ORCID: 0000-0003-4886-4708,E-mail:issxj@mail.sysu.edu.cn

Received: 2021-08-31   Revised: 2021-11-17  

Fund supported: Undergraduate Teaching Quality Project of Sun Yat-Sen University(20000-31911130)

摘要

【目的】 面向网络招聘广告提出一个完整、系统的岗位人才需求分析的框架,并基于框架对我国互联网行业人才需求进行分析。【方法】 采集互联网行业招聘广告,构建LDA模型以实现岗位需求的主题挖掘与分类,利用Word2Vec模型与依存句法分析得到主题词-程度词词表并构建主题本体。【结果】 实证分析发现互联网行业岗位主要分布于我国的东南沿海与一线城市,计算机技术和个人素质能力是互联网行业最为看重的两项主题能力,不同类别的岗位对人才的能力需求差异较大;并基于框架构建了对不同岗位需求的量化评价。【局限】 校园招聘的数据样本较少,导致分析结果与实际情况存在偏差;构建LDA模型时分词不够完善,某些主题代表性不强。【结论】 实证分析表明岗位人才需求分析框架对人才市场需求和岗位能力要求的分析是有效的,并依据分析结果提出了制定职业规划、提高培养计划灵活性等建议。

关键词: 招聘广告; 岗位人才需求分析; LDA主题模型; 本体

Abstract

[Objective] This paper proposes a complete and systematic framework to analyze qualifications from online job postings. It then examines the requirements of Internet-related jobs with the framework. [Methods] First, we retrieved recruitment advertisements for the Internet industry. Then, we constructed an LDA model for topic mining and classification of job descriptions. Finally, we used the Word2Vec model and dependency syntax analysis to obtain the topic-word and degree-word lists to construct the topic ontology. [Results] The empirical analysis revealed the status quo of the Internet industry positions, such as the regional and category distributions, as well as the required qualification for different types of positions. [Limitations] There were few data samples for campus recruitment, which led to deviations between the analysis results and the actual situation. The word-segmentation is not perfect for the LDA model, and some topics were not representative. [Conclusions] The proposed framework could effectively analyze job postings.

Keywords: Recruitment Advertisement; Job Demand Analysis; LDA Topic Model; Ontology

PDF (3748KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

岳铁骐, 傅友斐, 徐健. 基于招聘广告的岗位人才需求分析框架构建与实证研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 151-166 doi:10.11925/infotech.2096-3467.2021.0947

Yue Tieqi, Fu Youfei, Xu Jian. An Analysis Framework for Job Demands from Job Postings[J]. Data Analysis and Knowledge Discovery, 2022, 6(2/3): 151-166 doi:10.11925/infotech.2096-3467.2021.0947

1 引言

随着互联网的普及,网络招聘成为企业招聘的主流方式。企业可以随时在企业官网、招聘平台等渠道发布招聘信息。招聘信息包含企业对于人才的数量与质量的需求:一方面,招聘信息中包含岗位的数量能一定程度地体现一个地区、一个行业在一定时间段内的人才需求,进而反映这一地区、行业的发展情况甚至是前景;更重要的是,招聘信息包含企业对于应聘者的要求,例如基本情况、教育背景、个人能力等,在这些方面满足企业要求的人才当然更易获得企业的青睐。因此,可以说招聘信息是人才市场的风向标。

越来越多的学者通过对招聘信息的深入分析,挖掘各个行业对人才各方面的需求,为求职者提供参考,为高校提供培养建议,为国家人才政策的制定提供建议。本文根据岗位招聘信息特征和内容,构建了一个相对完整、系统的岗位人才需求分析框架。该框架整合了数据获取、数据建模、数据分析等过程,可以实现岗位人才需求的挖掘与发现。根据岗位人才需求分析框架,利用描述性统计分析、基于主题维度的分析、社会网络分析等分析方法挖掘岗位人才需求及其变化,让求职者找到适合自己的岗位,为高校结合社会需求培养人才提供参考,为我国的人才政策提供依据。

2 相关研究

对于岗位人才招聘信息的分析,最常用的分析方法是数据统计分析法以及内容分析法。数据统计分析法是利用统计学对招聘信息的各方面进行统计与分析,如Papoutsoglou等选择StackOverflow作为职业网络的网络资源,采用多元统计数据分析方法对招聘数据集中技能与能力的相关性进行检验[1];Surakka利用Z检验测试两个技能出现的比例之间的差异是否具有统计学意义[2];彩广畏利用关联规则分析,挖掘学历、城市、行业领域、工作经验以及薪资之间的关系[3];胡忠义等采用Spearman系数对工作经验、学历和薪资待遇进行相关性分析,探索不同类别招聘信息之间的关系[4]

内容分析法是一种对研究对象的内容进行分析,透过现象看本质的科学研究方法。通过对文献内容进行系统的量化分析,从中发现潜在信息,从而揭示出其中隐形的、有价值的信息内容,其目的是弄清或测度文献中本质性的事实或趋势[5]。Todd等利用内容分析法,通过人工从招聘广告的内容中提取出关键技能,并进行统计,分析1970年-1990年之间信息系统岗位的需求变化[6];Yadav等利用内容分析法分析《印度时报》(Times of India)刊登的图书馆专业人员招聘广告,从行业的不同方面,如职位的性质、资格、技能和不同职位所需的能力,探讨图书馆专业人员的就业趋势[7]

近年来,随着社会网络分析的推广,越来越多的学者采用该方法对岗位人才招聘信息进行分析。有的学者通过构造招聘信息中出现的技能之间的共现网络,对技能之间的关系进行分析,如Xu等假设如果两个技能出现在同一个岗位中,则认为技能彼此之间有连接,最后构造出一个技能共现网络,从而发现重要的技能[8];陈媛媛等找出高频就业技能关键词,依据它们在招聘信息中的共现关系构造共现矩阵,绘制高频就业技能共现网络,得到处于重要地位的就业技能[9]。赵丹以不同类型的职位和职位拥有的技能关键词作为边,构建职位网络,从而得到不同类型的岗位对不同技能的需求程度[10]

综上,对于岗位人才招聘信息的分析,现有研究的可改进之处包括:

(1)现有研究通常是将招聘信息作为一个整体看待或者选择某一类职业的招聘信息,没有从综合的视角全面地进行体系化的细化分析,因此难以构建一个通用的、系统的、合理的分析方法。

(2)对于岗位的专业知识通常是采用人工方法分类,难免会有所遗漏甚至重复,分类还会带有很强的主观性。因此,本文利用LDA主题模型,识别岗位人才需求主题,挖掘网络招聘信息的核心招聘需求,将岗位人才需求自动分类,提高分析效率。

(3)采用的方法有限。数据统计和内容分析的方法缺乏全面性,社会网络分析功能有限。随着社会科学分析方法的发展进步,需要采用更新、更有效的方法。

针对以上问题,本文设计了一个通用、系统的岗位人才需求分析框架,采用LDA主题分类法、主题本体构建、社会网络分析等方法,能够快速有条理地从网络招聘信息中识别岗位人才需求,为今后岗位人才需求分析提供借鉴。

3 框架构建

基于岗位招聘信息构建岗位人才需求分析框架,如图1所示。

图1

图1   岗位人才需求分析框架

Fig.1   Job Demand Analysis Framework


在数据获取阶段,笔者从网络上采集岗位招聘信息,对数据进行预处理,作为框架的输入点;在模型与词表构建阶段,利用处理后的数据构建LDA模型从而获取主题维度和主题词,构建Word2Vec模型[11]扩展主题词,进而构建主题分项词表。利用句法依存关系找出主题分项词表词语的程度词,构建程度词词表,与主题分项词表合并为主题词-程度词词表,再利用该词表构建主题本体。在分析阶段,对岗位进行描述性统计分析、相关性分析、基于各主题维度的分析、主题词共现网络分析以及基于主题本体的岗位要求进行主题评分。

3.1 数据来源与预处理

为对比在不同时间段、不同信息来源下互联网行业招聘岗位对人才的需求,选取以下两个数据来源作为分析对象。

(1)第四届泰迪杯全国数据挖掘挑战赛中使用的网络招聘信息数据集[12]。该数据集包含2015年11月-2016年4月某招聘网站发布的招聘信息的实际数据,招聘信息包含结构化数据和非结构化数据两部分。其中,结构化数据包括公司的基本情况、职位名称、行业领域、供职地点、发布时间、薪酬待遇、学历要求等,这些信息一般以表格的形式给出,而非结构化数据通常是以文本形式给出的说明信息。

(2)企业校园招聘信息官方网站。通过八爪鱼采集器[13]结合人工获取2019年10月-2019年11月中国互联网行业100强企业中51家发布的校园招聘广告的内容,以此作为数据来源。

由于本文主要研究对象为互联网行业对于应届毕业生的岗位需求,因此对数据集按此条件进行一定的筛选。去除掉外文广告、信息不完整的数据等不规范数据后,得到2019年10月-2019年11月校园招聘岗位信息2 162条,2015年11月-2016年4月招聘岗位信息7 336条,共9 498条。删除“薪酬福利”、“公司简介”等无用信息,仅保留用于后续数据分析的“公司”、“岗位名字”、“岗位描述”、“地区”、“岗位类别”和“岗位id”等字段,并将“岗位要求”、“职位要求”、“职位描述”等任职要求的字段表述统一为“岗位描述”。“岗位描述”为非结构化文本数据,是后续对岗位需求进行文本分析的主要内容。

3.2 LDA主题模型构建

隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出[14]。本文利用LDA主题模型对岗位要求进行自动分类,获取岗位要求的主题维度。

LDA主题模型需要指定主题的数量k。本文结合主题一致性评分与pyLDAvis(Python的一个交互式主题模型可视化库)将主题模型可视化[15],解释适合文本数据语料库的主题模型中的主题以选取主题模型的个数。

对所有岗位招聘信息文本句子进行LDA主题模型建模后,得到不同主题个数对应的主题一致性分数,如图2所示。

图2

图2   不同主题个数对应的主题一致性分数

Fig.2   The Subject Consistency Score for Different Topic Numbers


当主题数为6时,分数最高,达到-3.65;其次是3,分数为-3.66。对比分析后发现,主题个数为6时主题模型的提取效果更好,因此选取6个主题的主题模型。主题个数为6时的主题分布可视化如图3所示。

图3

图3   主题个数为6时的主题模型可视化

Fig.3   The Theme Model Visualization When the Number of Themes is 6


主题1和主题4部分重合,其余主题都有明显的区别。其中,主题1包含“客户”、“产品”、“销售”和“推广”等词,属于业务技能要求的内容;主题2包含“能力”、“沟通”、“责任心”、“学习能力”和“团队合作精神”等词,是对个人素质能力的要求;主题3包含“经验”、“技术”、“精通”、“开发”、“HTML”和“Javascript”等词,属于计算机技术的内容;主题4包含“项目”、“测试”、“设计”、“文档”等词,是项目技能要求的内容;主题5包含“经验”、“行业”、“互联网”、“产品”、“游戏”、“内容”、“文案”等词,属于互联网产品技能要求;主题6包含“专业”、“本科”、“大专”、“软件”等词,属于教育背景。

本文将这6个维度分别命名为“业务技能要求”、“个人素质能力”、“计算机技术”、“项目技能要求”、“互联网产品技能要求”和“教育背景”。每个主题维度由不同的主题词组成。由于这些主题词并不能完全反映主题,因此后文将对其进行扩展并构建出主题词词表。

3.3 主题词-程度词词表及主题本体构建

为对岗位需求进行分析,构建主题词-程度词词表以及主题本体。利用Word2Vec的语义相似度找出主题词的语义相似词,再进行人工归类,总结出每个主题的主题分项,形成主题分项词表;然后针对主题分项词表的主题词进行句法依存关系分析,找出用来描述主题词的程度词,进行人工筛选与程度分级,形成程度词词表;最后合并主题分项词表与程度词词表,形成总的主题词词表,并根据该词表构建主题本体。

(1) 基于Word2Vec的主题分项词表构建

在通过LDA模型构建主题后,由于部分主题词并没有具体的对象,或者因为仅凭单个主题词无法理解其含义,因此需要通过找出相似的词语作为其扩展,让每个主题的含义更加清晰。

利用Word2Vec将文本内容处理为K维向量空间中的向量,并将向量空间上的相似度作为文本语义上的相似度,找出每个主题相关性排名前10的主题词的语义相似词,连同主题词进行人工分类,获得主题分项,形成主题分项词表。以“能力”主题词为例,经过扩展后得到“执行能力”、“协调能力”、“解决问题能力”、“应变能力”等更加具体、更加明确的词语。

经过人工筛选与分类之后,得到该主题的主题分项及其主题词,如表1所示。

表1   “个人素质能力”主题分项主题词词表

Table 1  Subject Word for Personal Quality Competence

主题主题分项主题词
主题2:个人素质能力精神素质创新能力
学习能力
团队合作精神
责任感
敬业精神
进取精神
抗压性
适应能力
求知欲
办事能力执行能力
沟通能力
协调能力
解决问题能力
应变能力
分析能力
表达能力
条理性

新窗口打开| 下载CSV


个人素质能力主题可以分为“精神素质”和“办事能力”两个主题分项,“精神素质”包括“创新能力”、“学习能力”、“团队合作精神”、“责任感”、“敬业精神”等词;而“办事能力”包括“执行能力”、“沟通能力”、“协调能力”、“解决问题能力”、“应变能力”等词。下文将获取形容这些主题词的程度词,构建程度词词表。

(2) 基于句法依存关系的程度词词表构建

在得到主题词表后,利用句法依存关系分析找到每个主题词的程度词,并对程度词进行人工分级,最后形成程度词词表。利用PyLTP对招聘信息文本进行句法依存关系分析,根据词与词之间的关系找出描述主题词的程度词实体。

李轩利用CBOW模型对程度词实体进行相似度计算并分类,然后采用专家评价法给程度词赋权,由领域专家帮助制定表中类别代表词的权重。最终类别代表根据权重由高到低的排名为:“精通”、“掌握”、“熟悉”、“理解”、“了解”[16]。结合上述研究结果与人工分类的方式对利用句法依存关系分析得到的程度词进行分类,然后对上述5个不同类别的程度词进行程度分级,将“了解”和“理解”类别的词语作为同一级别,即一般程度词;将“掌握”和“熟悉”类别的词语作为同一级别,即较强程度词;将“精通”类别的词语作为最高级别,即强程度词。

表2   主题词-程度词词表(部分)

Table 2  Subject-Degree Word List (Partial)

主题主题分项主题词一般程度词较强程度词强程度词
主题1:业务技能要求市场运营运营了解(6)、理解(1)、懂(1)熟悉(16)、做过(2)、喜欢(2)热爱(16)
推广了解(7)熟悉(14)、做好(3)、掌握(1)、喜欢(1)热爱(2)、精通(1)
调研了解(1)
竞品分析
销售与客户管理产品销售
客户关系做好(8)
客户资源
客户资料

(注:单元格为空表示相关主题词无该程度的程度词命中。)

新窗口打开| 下载CSV


每个主题有对应的主题分项,每个主题分项对应多个主题词,每个主题词对应各自的程度词(部分主题词没有找到程度词)。该主题词-程度词词表将用于主题本体的构建。(3) 主题本体构建利用本体思想从不同角度对信息集合进行标引,表示信息内容与知识组织体系之间的链接关系,可以将本体与信息系统进行链接,从而使用户在使用信息的过程中更加便捷地浏览和理解相关概念和资源,还可以利用本体中的语义关系及推理规则集合进行推理,从而实现基于本体的智能分析和知识组织,并通过智能分析来预测知识增长点[17]。为挖掘每个岗位对人才的不同需求及其程度,提高岗位人才需求分析的效果,本文构建主题本体。主题本体包含某个岗位要求主题的主题分项、主题词和描述主题词的程度词,用于识别招聘信息文本中出现的主题词以及其程度词,作为岗位要求主题评分的基础。

图4

图4   计算机技术主题本体

Fig.4   Computer Technology Theme Ontology


3.4 岗位要求相关度分析

为挖掘不同类别的岗位对于不同主题的能力要求程度并进行量化,本文引入岗位相关度的概念[18],提出岗位要求主题与岗位相关度的计算公式如公式(1)所示。

Rt,j=p(ft,dj)p(Ft,D)=ftdjFtD=ft×DFt×dj

其中, t表示某个主题, j表示某类岗位, Rt,j表示某个主题与某个岗位的相关度, ft表示某个主题的所有主题词在某类岗位中出现的频次, dj表示某类岗位的招聘文本数, p(ft,dj)表示某个主题的所有主题词在某类岗位中出现的概率, Ft表示某个主题的所有主题词在所有岗位中出现的频次, D表示所有岗位的招聘文本数, p(Ft,D)表示某个主题的所有主题词在所有岗位中出现的频率。某个主题与某类岗位的相关度越高,说明该主题在该岗位中的地位越高,该岗位对该主题的需求越大。

3.5 基于社会网络的主题词共现网络分析

同类型岗位的招聘文本中往往会含有相同的主题词,这些主题词同时出现在招聘文本中,表现为主题词共现。多个主题词共现的关系则构建成主题词共现网络。因此,从社会学的角度看,可以将主题词看作社会网络中的节点,它们之间的共现关系则表现为节点之间的联系,即社会网络中的边。通过判断主题词是否共现或共现的频次,可以发现主题词在网络中的地位和承担的角色,从而发掘热门的主题词,即岗位的热门需求。因此,本文通过社会网络的视角对主题词的共现进行研究。利用社会网络分析工具Gephi与知识图谱工具VOSviewer[19]对主题词共现网络进行分析。将主题词-程度词词表里出现的主题词作为构建共现网络的节点,然后利用Python库中的Jieba分词[20]对每个岗位的招聘文本进行分词,并对主题词之间的共现频次进行统计,最后生成主题词共现矩阵。将共现矩阵导入网络可视化分析软件Gephi和VOSviewer中,对主题词共现网络进行统计分析,得到主题词共现网络图,并进行图密度分析、点度中心性分析与聚类分析,得到相关结论。

3.6 基于主题本体的岗位要求主题评分

为更加直观地评价一个岗位对于每个主题的要求程度,本文借助主题本体对岗位招聘文本进行分析,通过主题本体中主题词与程度词的关系,对岗位要求主题进行评分,最后将其可视化。通过岗位要求主题评分,应聘者可以结合自己的实际情况以及岗位要求主题的评分情况来筛选适合自己的岗位。某个岗位的岗位要求主题评分步骤如下:(1)对该岗位的招聘文本进行分词。(2)对于每个分出来的词,如果是主题词,则对其进行句法依存关系分析,然后根据主题本体找到该主题词的程度词及其评分。(3)对于找到程度词的主题词,以其找到的最高分程度词的评分作为该主题词的得分;对于没有找到程度词但在分词列表中出现过的主题词,其得1分。(4)对于每个主题,统计该主题下所有主题词的总得分,将此作为该主题的得分。(5)将岗位要求主题得分以雷达图的形式进行可视化输出。对于“教育背景”主题下的“学历背景”与“专业背景”主题分项中的主题词作以下特殊处理:(1)为“教育背景”主题增加得分项“学历”,并将分词列表中与学历相关的主题词作为“学历”的得分词,其中,“专科”、“大专”、“中专”与“高中”算1分,“本科”2分,“硕士”3分,“博士”4分。最后选择分数最低的得分词的得分作为“学历”的得分。“学历”得分项最高4分。(2)将“院校”主题词单独作为“教育背景”主题的得分项,如果分词列表中出现“院校”一词,则为“院校”得分项加1分。“院校”得分项最高1分。(3)为“教育背景”主题增加得分项“专业”,只要分词列表中出现“专业背景”主题分项下的主题词,则“专业”得分项得1分。“专业”得分项最高1分。

4 实证研究

4.1 岗位整体描述性统计

(1) 岗位地区分布对2015年11月-2016年4月和2019年10月-2019年11月两个时间段招聘岗位的地区数量(去除非国内地区,一个岗位可能对应多个地区)进行统计,两个时间段招聘岗位数排名前5的省份/直辖市如图5所示。

图5

图5   两个时间段招聘岗位数排名前5的省份/ 直辖市占比

Fig.5   The Proportion of the Top 5 Provinces in the Positions in Two Time Periods


两个时间段的岗位均集中分布在中国的东部以及沿海等经济较为发达的地区。2015年11月-2016年4月,岗位占比排名前5的省份/直辖市分别是北京(32.13%)、广东(20.65%)、上海(15.79%)、浙江(10.29%)与江苏(3.22%),而2019年10月-2019年11月,岗位占比排名前5的省份/直辖市分别是北京(32.01%)、上海(18.52%)、广东(16.68%)、江苏(7.80%)与福建(3.58%)。(2) 岗位类别结合原有的岗位分类,本文将所有岗位分为7个类别,分别是技术类、运营类、市场与销售类、职能类、设计类、产品类和金融类。两个时间段不同岗位类型占比的对比如图6所示。

图6

图6   两个时间段岗位类型占比

Fig.6   The Percentage of Job Types for the Two Time Periods


2015年11月-2016年4月,互联网行业岗位类型占比最多的是市场与营销类(30.79%)与技术类(30.55%),二者占比基本一致,其次是运营类(21.56%);相比该时间段,2019年10月-2019年11月,技术类(从30.55%到49.31%)岗位占比上升明显,几乎占据所有岗位的一半,而除了运营类(从21.56%到13.74%)和市场与销售类(从30.79%到10.45%)岗位占比下降之外,其他类型的岗位占比都有所上升。这说明随着互联网行业的发展,技术类岗位的需求也越来越大,而运营类和市场与销售类岗位的需求相对减少。从上升的幅度看,最高的是技术类岗位,上升18.76%;其次是产品类和职能类岗位,分别上升3.41%和3.37%;最后是设计类和金融类岗位,分别上升1.85%和0.78%。

4.2 基于主题维度的岗位要求分析

(1) 岗位要求主题维度整体分析通过统计2015年11月-2016年4月和2019年10月-2019年11月两个时间段每个主题所包含主题词的词频在所有主题词的词频中所占的比例,反映不同时间段招聘岗位对不同主题的需求程度。两时间段岗位要求各主题的词频占比如图7所示。

图7

图7   两时间段岗位要求各主题的词频占比

Fig.7   Job Demands for Each Topic of the Word Frequency Ratio in Two Time Periods


2015年11月-2016年4月,词频占比排名由高至低分别是“个人素质能力”(30.64%)、“业务技能要求”(19.29%)、“计算机技术”(17.70%)、“教育背景”(16.25%)、“互联网产品技能要求(9.19%)”、“项目技能要求(6.93%)”;而后一个时间段词频占比排名由高至低分别是“计算机技术”(28.05%)、“个人素质能力”(25.66%)、“教育背景”(23.20%)、“业务技能要求”(14.59%)、“项目技能要求”(4.71%)、“互联网产品技能要求”(3.80%)。可以发现,“计算机技术”(从17.70%到28.05%)在岗位要求中越来越重要;“个人素质能力”(从30.64%到25.66%)尽管下降了4.98%,但仍然居于第2位,说明其地位依然重要;而“教育背景”(从16.25%到23.20%)也上升了1位,说明岗位对于教育背景的门槛有所提高。对两个时间段词频占比排名前10的主题词进行统计,结果如表3所示。

表3   两时间段词频占比排名前10的主题词

Table 3  The Two Time Periods Account for the Top10 Topic Words

2015年11月-2016年4月2019年10月-2019年11月
推广7.06%本科9.22%
运营6.71%运营7.74%
责任感6.45%学习能力5.13%
沟通能力5.52%沟通能力5.03%
学习能力4.27%算法4.63%
大专3.69%责任感4.36%
团队合作精神3.63%Python3.69%
本科2.97%C++3.49%
收集2.83%数据分析3.33%
执行能力2.23%Java2.97%

新窗口打开| 下载CSV


“运营”、“本科”、“责任感”、“沟通能力”和“学习能力”在两个时间段中词频占比排名都在前10,说明随着互联网行业发展,应聘者个人能力和学历始终受到用人单位的高度重视。“算法”、“Python”、“数据分析”、“C++”、“Java”在后一个时间段中进入前10名,说明随着互联网行业发展,对软件开发和数据分析人才的需求增长迅速。

(2) 岗位要求相关度分析

2019年10月-2019年11月,各主题与各岗位之间的相关度如表4所示,通常相关度大于1则可以说明某个岗位对某主题的需求较大。

表4   2019年10月-2019年11月各主题与各岗位之间的相关度

Table 4  Relevance Between Topics and Positions from 2019.10 to 2019.11

岗位分类主题1:
业务技能要求
主题2:
个人素质能力
主题3:
计算机技术
主题4:
项目技能要求
主题5:
互联网产品技能要求
主题6:
教育背景
技术类0.3400.8881.9700.7700.5370.936
运营类3.0651.1150.0451.0102.0920.842
市场与销售类1.6701.1420.0320.9780.8010.756
职能类0.7641.2010.0160.7620.6621.038
设计类0.2780.7050.0812.4461.2842.002
产品类1.8521.3860.1081.0662.7100.877
金融类0.7841.1890.1871.7200.5021.028

新窗口打开| 下载CSV


表4中的相关度可知,不同类别的岗位对不同主题的要求有所差异:技术类岗位对计算机技术(1.970)最为看重,运营类岗位和市场与销售类岗位最看重业务技能要求(3.065和1.670),职能类岗位最关注的是个人素质能力(1.201),设计类岗位与金融类岗位对于项目技能要求(2.446和1.720)最为突出,产品类岗位最在意的是互联网产品技能要求(2.710)。

4.3 技术类岗位要求主题词共现网络分析

由于技术类岗位需求数量最大,以技术类岗位为例,进行进一步统计分析。构建2015年11月-2016年4月和2019年10月-2019年11月两个时间段技术类岗位的LDA主题词共现网络,并找出其主题词热点。基于岗位要求主题词词表,获取每条招聘文本的主题词共现信息,利用Python计算出主题词共现矩阵,然后通过Gephi软件对主题词共现矩阵进行可视化,形成主题词共现网络。

(1) 图密度分析

利用Gephi对两时间段主题词共现网络的图密度进行统计。其中,2015年11月-2016年4月的图密度是0.472,2019年10月-2019年11月的图密度是0.386,说明后一个时间段的主题词更加分散,反映了后一个时间段对技术类岗位的综合要求有所提高。

(2) 点度中心性分析

利用Gephi对两个时间段的平均中心度进行统计,得到2015年11月-2016年4月的平均中心度是50.936,而2019年10月-2019年11月的是36.295。

两时间段点度中心性排名前10的主题词节点如表5所示。

表5   两时间段点度中心性排名前10的主题词节点

Table 5  Point-centric Top10 Topic Word Nodes in the Two Time Periods

排名2015年11月-2016年4月2019年10月-2019年11月
主题词节点点度中心度主题词节点点度中心度
1责任感103本科87
2沟通能力99团队合作精神81
3团队合作精神97C++81
4学习能力96Python80
5Javascript94学习能力78
6本科91Java77
7HTML90沟通能力76
8数据库89责任感75
9CSS88算法74
10运营87运营67

新窗口打开| 下载CSV


对比表中两个时间段的主题词节点,可以看到相同的主题词节点有“责任感”、“沟通能力”、“团队合作精神”、“学习能力”、“本科”、“运营”,说明这些主题词是技术类岗位要求的基础;而不同的主题词分别是前一个时间段的“Javascript”、“HTML”、“CSS”、“数据库”,后一个时间段的“C++”、“Python”、“Java”、“算法”,这体现了不同时间段对于具体知识技能的要求有所不同。

(3) 聚类分析

利用Gephi的社区探测分析对两个时间段主题共现网络的主题词进行聚类,再利用VOSviewer结合聚类结果将主题词共现网络进行可视化,如图8所示。

图8

图8   两时间段技术类岗位主题词共现网络

Fig.8   Co-occurrence Network Diagram of Subject Words for Technical Positions


图8中一种颜色的节点代表一个群组,而两个时间段的主题词网络都将主题词分为三个群组。

分别对两个时间段主题共现网络中每个群组点度中心性排名前10的主题词进行统计,如表6表7所示。

表6   2015年11月-2016年4月技术类岗位每个群组点度中心性排名前10的主题词

Table 6  Point-centric Top 10 Topic Words for Each Group for Technical Positions from 2015.11 to 2016.4

群组1群组2群组3
主题词节点点度中心度主题词节点点度中心度主题词节点点度中心度
责任感103沟通能力99数据库89
学习能力96团队合作精神97运营87
本科91Javascript94Java85
Android82HTML90Linux83
表达能力81CSS88Python77
移动互联网81Jquery87操作系统70
协调能力80Ajax83调研69
分析能力79大专80数学60
算法78执行能力70通信58
C++78产品设计69数据分析56

新窗口打开| 下载CSV


表7   2019年10月-2019年11月技术类岗位各群组点度中心性排名前10的主题词

Table 7  Point-centric Top 10 Topic Words for Each Group for Technical Positions from 2019.10 to 2019.11

群组1群组2群组3
主题词节点点度中心度主题词节点点度中心度主题词节点点度中心度
Javascript60C++81本科87
HTML54Python80团队合作精神81
CSS47Java77学习能力78
Ajax34算法74沟通能力76
Jquery25数学66责任感75
XHTML22Linux60运营67
交互设计21硕士59数据库63
dom20计算机专业57通信63
Flash14软件工程56表达能力55
机器学习55求知欲52

新窗口打开| 下载CSV


表6可知,群组1包括“责任感”、“学习能力”、“表达能力”以及“Android”、“算法”、“C++”等词,是对编程开发类岗位的个人素质能力要求以及技术要求;群组2包括“沟通能力”、“团队合作精神”以及“Javascript”、“HTML”、“CSS”等词,是对网页开发类岗位的个人素质能力要求以及技术类要求;群组3包括“书库”、“运营”、“调研”、“数据分析”以及“Java”、“Linux”、“Python”等词,属于数据运营类岗位,对数据分析能力以及编程能力都有要求。

表7所知,群组1包括“Javascript”、“HTML”、“CSS”等网络前端开发技能,可以认为该群组属于网页开发类岗位,要求应聘者拥有网页开发的相关知识;群组2包括“Python”、“Java”、“C++”、“算法”以及“数学”、“计算机专业”、“软件工程”等词,说明该群组属于编程开发类岗位,这些岗位要求应聘者有编程语言知识而且对教育背景有一定的要求;群组3包括“本科”、“学习能力”、“团队合作精神”、“沟通能力”以及“运营”、“数据库”等词,属于数据运营类岗位,这类技术类岗位对个人素质能力以及教育背景有较高的要求。

对比两个时间段的聚类结果,可以发现两个时间段都把主题词分为三个群组,分别为“网页开发类岗位”、“编程开发类岗位”和“数据运营类岗位”。三类岗位的具体要求各有不同:对于“网页开发类岗位”,前一个时间段会提出更多的个人素质能力要求,而后一个时间段只提到网页开发相关的知识与内容;对于“编程开发类岗位”,后一个时间段会提出更多的教育背景方面的要求,提高了学历与专业的门槛,并且编程语言的选择也更加多样化;对于“数据运营类岗位”,前一个时间段会要求有编程知识,后一个时间段则要求更多的个人素质能力。

4.4 岗位要求主题评分

为更加直观地对某个岗位对于不同主题的要求程度进行判断,基于主题本体对岗位要求主题进行评分,并进行可视化。以用友网络的软件测试工程师岗位(技术类)以及网易的内容运营岗位(运营类)为例。两个岗位的招聘文本如表8所示。

表8   岗位招聘文本

Table 8  The Recruitment Text

公司岗位岗位描述
用友网络软件测试工程师1、负责产品的日常测试工作,用自动化工具进行脚本录制、调试及回放;
2、根据需求进行产品测试用例设计;
3、执行测试用例并反馈跟踪BUG,定位问题性质,推进问题解决;
4、改进和完善测试流程及方法;
5、提交测试报告,保证产品质量;
6、统招本科以上学历,计算机类专业;
7、工作细心、有责任心有较强的沟通能力,且具有良好的团队协作精神;
8、学习能力强,能够很快适应快节奏的工作环境;
9、了解自动化、白盒、性能测试,掌握常见的白盒测试工具以及开源测试工具;
10、掌握.net开发语言以及Python、Shell其中一种脚本语言。
网易内容运营1、协同相关的业务链条,如市场,运营等,探索从内容维度辅助业务圈粉和品牌力的推广;
2、负责严选商品内容的规划和呈现,包括但不仅限于商品卖点,品牌力塑造传达,以及商品故事包装等维度探索;
3、探索严选商品内容的价值和输出方式,结合用户痛点和需求,打造严选内容价值;
4、产出符合商品规划的内容专题,并能通过数据分析和复盘,优化内容,商详,为提升整体商品转化赋能;
5、本科及以上学历,熟悉内容电商相关平台或热门内容平台,有公众号等新媒体媒介内容运营的尝试及探索经验者优先;
6、优秀的文字功底,活跃的创意思维,较高的审美调性和把控力;
7、有良好的合作意识与沟通协调能力;
8、具有优秀的学习能力和独立思考能力。

新窗口打开| 下载CSV


根据岗位要求主题评分规则对招聘文本进行分析,得到得分的主题词或得分项以及其得分,如表9所示。

表9   得分的主题词与得分项

Table 9  Subject Words and Scoring Items

公司和岗位主题词或得分项命中的程度词或得分主题词主题词或得分项最终得分
用友网络:软件测试工程师学习能力['强']2
团队合作精神['具有']1
责任感['有']1
Python['掌握']2
测试用例1
测试报告1
学历['本科']2
沟通能力['强', '有']2
网易:内容运营学习能力['优秀', '具有']3
协调能力['有']1
学历['本科']2
运营1
推广1
数据分析1
新媒体1

(注:评分规则按照3.6的说明,其中没有程度词命中的主题词计1分。)

新窗口打开| 下载CSV


根据主题词和得分项计算每个主题的得分,以雷达图的形式输出,如图9所示。

图9

图9   岗位要求主题评分雷达图

Fig.9   Job Demands Topic Scoring Radar Chart


图9可得,用友网络的软件测试工程师岗位要求主题得分最高的是“个人素质能力”主题,获得4分;其次是“计算机技术”、“教育背景”和“项目技能要求”,各得2分;而“互联网产品技能要求”与“业务技能要求”在这个岗位没有得分。网易的内容运营岗位要求主题得分最高的也是“个人素质能力”主题,获得4分;其次是“业务技能要求”,获得3分;接着是“教育背景”和“互联网产品技能要求”,分别获得2分和1分,而“项目技能要求”没有得分。

两个岗位虽然属于不同类型,但都对“个人素质能力”的要求最高;不同的是由于软件测试工程师岗位属于技术类岗位,所以会对“计算机技术”和“项目技能要求”主题有所要求,而内容运营岗位属于运营类岗位,所以会对“互联网产品技能要求”以及“业务技能要求”主题有所侧重。因此,该图直观地反映了该岗位对各类主题的要求程度,可以让求职者结合自己的实际能力对各个岗位进行筛选。

5 总结与展望

5.1 总结

本文面向网络招聘广告提出了一个完整、系统的岗位人才需求分析框架并基于框架中的岗位分类与主题本体对我国互联网行业人才需求进行分析,能够为求职者与高校人才培养提供参考。

本文在方法层面的工作包括:

(1)基于大样本的岗位招聘信息构建岗位人才需求分析框架,让高校和大学生能够迅速准确地把握岗位市场对人才的各种需求。为基于招聘广告的岗位人才需求分析提供了完整综合的分析方法。

(2)通过采集互联网行业校园招聘岗位信息以及第三方招聘信息数据集相关招聘信息,利用LDA主题模型以及Word2Vec模型构建主题词词表,结合根据句法依存关系分析构建的程度词词表,形成主题词-程度词词表并构建主题本体,最后根据该词表以及主题本体对互联网行业岗位招聘信息进行分析,挖掘岗位对人才的核心需求。这一本体亦可复用于其他相关内容的评价分析。

(3)通过构建的主题本体,为各个岗位的主题要求进行评分,并以雷达图的形式进行可视化,能够直观、清晰地了解一个岗位对不同需求的要求程度。

在实证分析阶段,对比了两个时间段的招聘信息,能够发现互联网行业的发展状况,挖掘岗位对人才的需求变化,预测岗位热门需求。结论如下:

(1)根据描述性统计的结果,从地区分布看(图5),互联网岗位主要分布在东部沿海地区以及一线城市,这些地区资源丰富,经济也较为发达。从岗位类别看(图6),互联网行业对于技术类岗位的需求量最大而且越来越多,而运营类和市场与销售类岗位的需求相对减少,产品类和职能类的需求量增加。

(2)根据岗位要求能力主题的分析结果,从主题本体的角度来看(图7),互联网行业中不同类别的岗位对于主题能力的要求有所差异。总体而言,“计算机技术”和“个人素质能力”是互联网行业岗位最为看重的两项能力,近年来,行业对于“教育背景”的要求提升最快。从细化到主题词的角度分析(表3),对“算法”、“Python”、“数据分析”、“C++”、“Java”等具体技术的要求在迅速增长,说明随着互联网行业发展,对软件开发和数据分析人才的需求增长迅速。

(3)根据主题与不同岗位的相关度分析(表4),技术类岗位对计算机技术最为看重,运营类岗位和市场与销售类岗位最看重业务技能要求,职能类岗位最关注的是个人素质能力,设计类岗位与金融类岗位对于项目技能要求最为突出,产品类岗位最需要的是互联网产品技能要求。

(4)根据技术类岗位要求主题词共现网络分析中的聚类分析(图8,表6,表7),可知技术类岗位可以分为“网页开发类”、“编程开发类”和“数据运营类”三类,三类岗位的要求各有侧重。具体而言,“网页开发类”岗位要求的主要是以Javascript、HTML、CSS等为代表的网页开发技巧;“编程开发类”首先要求熟练掌握C++、Python、Java等程序语言,其次还对专业、学历等背景条件有较高要求;“数据运营类”岗位则主要要求个人素质能力。

(5)本文以用友网络的软件测试工程师岗位(技术类)和网易的内容运营岗位(运营类)为例,在本文的框架内具体分析了两个招聘广告信息的岗位人才需求并进行了岗位要求主题评分,既初步说明了本文所构建框架的有效性,也为具体岗位的具体分析方法提供框架内的参考。

根据实证分析的结论,分别向大学生以及高校提供面向互联网行业的人才培养建议:

(1)对于有相关求职需求的同学,由于互联网行业对求职者的要求有相当的提高,因此要提高自身的综合能力,特别是在“计算机技术”、“个人素质”和“教育背景”这三方面,以满足行业的要求。另一方面,互联网行业中不同类型的岗位对于能力的要求差异较大,大学生在求职阶段要有适当的规划,选择与自己的兴趣、能力相匹配的岗位。例如对自己的计算机技术,尤其是程序设计和算法有自信的同学可以选择技术类岗位进行应聘。

(2)对于作为人才培养者的学校,为适应社会的变化,应该提高对于程序设计与算法等课程的普遍要求,特别是结合理论知识与实践技能,以满足行业对于这些技能的要求。此外,为满足不同学生对于自身职业规划的不同需求,学校可以适当提高培养计划的灵活性,增加选修课程的门类,或者考虑提供丰富的慕课资源供学生自己选择。

5.2 不足与展望

本文主要存在以下两点不足:

(1)校园招聘岗位信息选取的是互联网行业排名前100的企业,是行业中的佼佼者,因此不能完全代表整个互联网行业。受经济形势影响,2019年许多排名靠前的互联网企业都没有进行校园招聘,校园招聘的数据样本较少,导致分析的结果与实际情况存在偏差,因此,未来将持续关注与获取校园招聘岗位信息,增加数据样本。

(2)本研究在构建LDA模型时分词不够完善,许多同义词未能统一为一个名词(如执行能力和执行力、团队合作和团队合作精神),导致主题词词表构建得不完善,某些主题的主题词较少,不能代表整个主题,使实证分析时岗位招聘文本难以匹配出某个主题。后续会继续完善分词方法,尽可能将同义词统一,从而完善主题词词表。

作者贡献声明

岳铁骐:撰写框架构建、实证研究、总结与展望部分;

傅友斐:文献调研,数据分析,撰写引言、相关研究部分;

徐健:制定论文框架,论文修改及最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

[1] 岳铁骐. 2015info.xlsx. 从第三方平台获取到的2015年11月到2016年4月的经过筛选的招聘信息.

[2] 岳铁骐. 2019info.xlsx. 从互联网企业校园招聘网站获取到的2019年10月到11月的招聘信息.

[3] 岳铁骐. 描述性统计.xlsx. 对岗位地区、公司、类别的数据统计.

[4] 岳铁骐. 2015area.png. 2015年11月到2016年4月岗位地区分布.

[5] 岳铁骐. 2019area.png. 2019年10月到11月岗位地区分布.

[6] 岳铁骐. 所有岗位主题词统计.xlsx. 所有岗位的主题及其主题词统计.

[7] 岳铁骐. 各类岗位主题词词频统计及相关性计算.xlsx. 对各类别岗位的主题词词频进行统计及其相关性计算.

[8] 岳铁骐. 主题词-程度词词表.xlsx. 经过汇总后的主题词-程度词词表.

参考文献

Papoutsoglou M, Mittas N, Angelis L.

Mining People Analytics from StackOverflow Job Advertisements

[C]// Proceedings of the 43rd Euromicro Conference on Software Engineering and Advanced Applications (SEAA). IEEE, 2017: 108-115.

[本文引用: 1]

Surakka S.

Analysis of Technical Skills in Job Advertisements Targeted at Software Developers

[J]. Informatics in Education, 2005, 4(1):102-122.

DOI:10.15388/infedu.2005.07      URL     [本文引用: 1]

彩广畏.

从网络招聘信息看我国人才需求状况

[D]. 长沙: 湖南师范大学, 2017.

[本文引用: 1]

( Cai Guangwei.

The Situation of Talent Demand in China from the Viewpoint of Network Recruitment Information

[D]. Changsha: Hunan Normal University, 2017.)

[本文引用: 1]

胡忠义, 李雅, 吴江, .

基于招聘信息的商务智能人才需求分析与启示

[J]. 信息资源管理学报, 2019, 9(3):111-118.

[本文引用: 1]

( Hu Zhongyi, Li Ya, Wu Jiang, et al.

Analysis of Recruitment Information on Business Intelligence Professionals: Recruitment Requirement and Enlightenment

[J]. Journal of Information Resources Management, 2019, 9(3):111-118.)

[本文引用: 1]

李尚昊, 郝琦.

内容分析与文本挖掘在信息分析应用中的比较研究

[J]. 图书馆学研究, 2015(23):37-42.

[本文引用: 1]

( Li Shanghao, Hao Qi.

A Comparative Study of Content Analysis and Text Mining in the Application of Information Analysis

[J]. Research on Library Science, 2015(23):37-42.)

[本文引用: 1]

Todd P A, McKeen J D, Gallupe R B.

The Evolution of IS Job Skills: A Content Analysis of IS Job Advertisements from 1970 to 1990

[J]. MIS Quarterly, 1995, 19(1):1-27.

DOI:10.2307/249709      URL     [本文引用: 1]

Yadav A K S, Bankar P D.

Employment Opportunities in LIS Field in India: A Content Analysis of Positions Advertised

[J]. Annals of Library and Information Studies, 2016, 63(1):53-58.

[本文引用: 1]

Xu T, Zhu H S, Zhu C, et al. Measuring the Popularity of Job Skills in Recruitment Market: A Multi-Criteria Approach[OL]. arXiv Preprint, arXiv:1712.03087.

[本文引用: 1]

陈媛媛, 董伟.

社会需求导向下图书情报专业毕业生就业技能分析

[J]. 图书情报工作, 2017, 61(19):66-73.

[本文引用: 1]

( Chen Yuanyuan, Dong Wei.

Analysis on the Employment Skills of Library and Information Science Graduates Under the Guidance of Social Needs

[J]. Library and Information Service, 2017, 61(19):66-73.)

[本文引用: 1]

赵丹.

网络招聘信息的分析与挖掘

[D]. 贵阳: 贵州财经大学, 2017.

[本文引用: 1]

( Zhao Dan.

Analysis and Mining of Network Recruitment Information

[D]. Guiyang: Guizhou University of Finance and Economics, 2017.)

[本文引用: 1]

Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and Their Compositionality[OL]. arXiv Preprint, arXiv:1310.4546.

[本文引用: 1]

第四届“泰迪杯”全国数据挖掘挑战赛赛题[EB/OL].(2016-03-29. https://www.tipdm.org/qk/729.jhtml.

URL     [本文引用: 1]

(Questions of the 4th “Teddy Cup” National Data Mining Challenge[EB/OL].(2016-03-29. https://www.tipdm.org/qk/729.jhtml. )

URL     [本文引用: 1]

八爪鱼采集器[EB/OL].(2021-07-16). https://www.bazhuayu.com/.

URL     [本文引用: 1]

(Bazhuayu Crawler. (2021-07-16). https://www.bazhuayu.com/. )

URL     [本文引用: 1]

Blei D M, Ng A Y, Jordan M I.

Latent Dirichlet Allocation

[J]. Journal of Machine Learning Research, 2003, 3:993-1022.

[本文引用: 1]

刘畅.

数据类岗位招聘需求信息研究

[D]. 兰州: 兰州财经大学, 2019.

[本文引用: 1]

( Liu Chang.

Research on Recruitment Demand Information of Data Job

[D]. Lanzhou: Lanzhou University of Finance and Economics, 2019.)

[本文引用: 1]

李轩.

基于知识图谱的教育领域知识问答系统的研究与应用

[D]. 长春: 吉林大学, 2019.

[本文引用: 1]

( Li Xuan.

Research and Application of Knowledge Question Answering System in Education Based on Knowledge Graph

[D]. Changchun: Jilin University, 2019.)

[本文引用: 1]

张文秀, 朱庆华.

领域本体的构建方法研究

[J]. 图书与情报, 2011(1):16-19.

[本文引用: 1]

( Zhang Wenxiu, Zhu Qinghua.

Research on Construction Methods of Domain Ontology

[J]. Library and Information, 2011(1):16-19.)

[本文引用: 1]

张俊峰.

国内网站招聘岗位需求特征挖掘及其应用研究

[D]. 蚌埠: 安徽财经大学, 2017.

[本文引用: 1]

( Zhang Junfeng.

Research on Demand Characteristics Mining and Application of Domestic Website Recruitment

[D]. Bengbu: Anhui University of Finance & Economics, 2017.)

[本文引用: 1]

廖君华, 陈军营, 白如江.

基于引文内容挖掘的科技创新路径识别方法与开源工具研究

[J]. 现代情报, 2018, 38(7):113-121.

[本文引用: 1]

( Liao Junhua, Chen Junying, Bai Rujiang.

Research on Technology Innovation Path Recognition Method and Open Source Tool Based on Citation Content Mining

[J]. Journal of Modern Information, 2018, 38(7):113-121.)

[本文引用: 1]

Jieba分词[EB/OL].(2021-07-16). https://github.com/fxsjy/jieba.

URL     [本文引用: 1]

(Jieba Segmentation. (2021-07-16). https://github.com/fxsjy/jieba. )

URL     [本文引用: 1]

/