Advanced Search

数据分析与知识发现  2017 , 1 (12): 32-40 https://doi.org/10.11925/infotech.2096-3467.2017.0817

研究论文

基于大数据岗位需求的文本聚类研究*

刘睿伦, 叶文豪, 高瑞卿, 唐梦嘉, 王东波

南京农业大学信息科学技术学院 南京 210095

Research on Text Clustering Based on Requirements of Big Data Jobs

Liu Ruilun, Ye Wenhao, Gao Ruiqing, Tang Mengjia, Wang Dongbo

College of Information and Technology, Nanjing Agricultural University, Nanjing 210095, China

中图分类号:  G351

通讯作者:  通讯作者: 王东波, ORCID: 0000-0002-9894-9550, E-mail: db.wang@njau.edu.cn

收稿日期: 2017-08-15

修回日期:  2017-10-12

网络出版日期:  2017-12-25

版权声明:  2017 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

基金资助:  *本文系江苏省社会科学基金项目“大数据环境下汉英短语级平行语料标注及知识挖掘研究”(项目编号: 13XWC017)的研究成果之一

展开

摘要

目的】对大数据工作岗位需求文本进行挖掘, 帮助大数据企业更精准地定位所需人才。【方法】抽取招聘网站上2017年第一季度关于“大数据”的工作岗位信息, 使用TF-IDF并结合Word2Vec和K-means实现基于语义的聚类, 并利用轮廓系数方法获取最佳聚类效果。【结果】利用抽取获得的实体对文本向量进行表达能够达到良好的聚类效果, 最终将岗位需求文本分为工作能力要求、学历要求以及工作经验要求三类。【局限】各网站信息发布的格式不统一, 数据清洗不够全面, 对聚类效果产生影响; 挖掘获取的招聘信息数据量不充足, 使Word2Vec模型训练集较小, 训练结果还有提升空间。【结论】根据聚类结果发现大数据岗位对学历要求不高、企业偏好有经验的但也不排除无经验的求职者、企业对职位素养要求要高于计算机技术要求等特点。

关键词: 大数据岗位 ; Word2Vec ; K-means ; 轮廓系数

Abstract

[Objective] This study analyzes the requirements of big data related positions, aiming to identify high-quality candidates for the companies. [Methods] We retrieved job postings in the field of big data from major recruitment websites during the first quarter of 2017. Then, we used the TF-IDF, word2vec, and k-means algorithms to cluster the texts semantically, which were optimized with the help of silhouette coefficient. [Results] We obtained very good clustering results, and divided the job requirements into three categories of capability, education background and work experiences. [Limitations] First, the formats of job announcement posted on different websites were not unified, which affected the data cleaning and clustering. Second, the training set for word2vec was small due to insufficient data retrieved from the Web. [Conclusions] We found that the big data related jobs do not require advanced degrees and the companies prefer experienced candidates. Those applicants with no relevant experience will also be considered. The candidates’ professionalism is more important than their computer skills.

Keywords: Big DATA Jobs ; Word2Vec ; K-means ; Silhouette Coefficient

0

PDF (1378KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

刘睿伦, 叶文豪, 高瑞卿, 唐梦嘉, 王东波. 基于大数据岗位需求的文本聚类研究*[J]. 数据分析与知识发现, 2017, 1(12): 32-40 https://doi.org/10.11925/infotech.2096-3467.2017.0817

Liu Ruilun, Ye Wenhao, Gao Ruiqing, Tang Mengjia, Wang Dongbo. Research on Text Clustering Based on Requirements of Big Data Jobs[J]. Data Analysis and Knowledge Discovery, 2017, 1(12): 32-40 https://doi.org/10.11925/infotech.2096-3467.2017.0817

1 引 言

目前国内对大数据人才的需求呈现爆发式的增长。据国家信息中心发布的《中国大数据发展报告(2017)》[1]指出, 由于大数据技术在我国由兴起到广泛应用的历时较短, 人才培养速度较缓, 大数据从业者技能和经验不足。并且大数据技术入门门槛较高, 加上部分从业者对大数据的盲目跟从, 最终造成企业大数据岗位缺口扩大以及人才与岗位需求不对口的现象, 成为制约我国大数据产业发展的关键障碍之一。

因此, 针对大数据大量且多样化的岗位招聘信息, 挖掘大数据岗位需求, 帮助企业定位人才, 是非常必要的。目前, 针对国内乃至世界范围内大数据岗位的研究较少, 大多停留在利用统计分析和信息计量等方法进行研究。在国外, Lukić[2]对企业大数据岗位的技能需求以及岗位影响力提出了假设, 利用实证研究和调查问卷的方法进行验证, 最后总结出企业对大数据岗位不仅存在技能的要求, 也包括对如商业头脑、社交技能等职业素养的要求。但由于采用调查问卷的方式, 问卷的题目广度和深度受限于问卷设计者的认知程度, 难以挖掘更深层次的无法直观获取的内容; Kim等[3]使用内容分析方法对1 240条数据科学家招聘信息进行分析, 总结企业对数据科学家一职的专业以及学历有着较高的要求, 主要的专业领域涉及统计学、机器学习及分析。但由于数据量较小, 使得结果不具有可靠性。在国内, 夏火松等[4]对比了CNKI收录的大数据相关的硕博士论文以及招聘网站硕博士学历的相关招聘信息, 利用文献计量与内容分析的方法, 从多个角度对比分析了我国大数据在学界和业界的现状, 发现我国大数据企业人才需求与高校和研究所学术研究之间的关系; 黄崑等[5]利用内容分析法从职位基本信息、岗位职责、任职要求三个角度分析大数据岗位对人才知识和能力的要求, 并对图书馆情报学科人才适应国内大数据环境下的培养方案提出建议。

综上, 传统的统计学和计量学的方法在研究大数据岗位需求上虽有一定的成就, 但是上述研究基本都存在数据量较小的问题。同时在研究过程中也需要使用大量的人力对数据进行分析, 研究结果较容易受到人的认知水平影响, 无法全面挖掘隐藏在数据表面之下的规律。而相比于传统的统计学和信息计量学, 针对大数据岗位需求文本数据, 利用无监督学习的聚类算法进行文本挖掘, 其不受限于人的主观因素影响, 不限于抽样数据, 能够对海量的数据进行挖掘和知识发现, 能更好地表达数据潜在的内容。

使用机器学习的方法分析大数据岗位需求方面, De Mauro等[6]通过结合专家判断、文本聚类和主题建模技术的方法, 分析超过2 700条大数据相关岗位信息, 划分出商业分析、数据科学家、开发人员以及工程师4个领域相关的工作类型, 并对每一个工作类型所需的技能和熟练程度要求进行评估; Debortoli等[7]使用LSA结合TF-IDF以及SVD方法对在线招聘网站上4 246个商业智慧相关工作岗位和1 411个大数据相关工作岗位技能要求进行对比分析和总结, 最终发现两者在健康医疗、数字市场、销售和业务发展、数据库管理以及软件工程岗位上有较大的交集。上述两项研究都很好地将机器学习算法以及文本挖掘方法应用到大数据岗位分析中, 但是其研究的数据量较小, 无法体现出机器学习算法在该方向上的应用优势。而国内暂未发现利用机器学习方法进行的相关研究。

文本聚类方面, 较为流行的算法为K-means和层次聚类算法。K-means算法是Steinhaus[8]提出的一种聚类思路并被MacQueen[9]在1967年首次进行命名和使用。该算法虽然存在k大小选取等诸多弊端, 但由于其简单实现, 且和层次聚类算法相比时间复杂度低, 能在短时间内处理海量的数据, 因此被人们广泛应用于文本挖掘、数据分析和计算机视觉等领域中。Dhillon等[10]通过利用词频的方式搭建文本空间向量模型, 结合球面K-means算法进行研究, 最终他们发现球面K-means算法得出的概念向量具有稀疏性和局部最优的情况; 黄建宇等[11]根据文档集合的特征空间替代词库, 并提出一种新的基于优化k值的K-means算法, 实验证明该方法提高了文本聚类的智能性和准确性, 但由于其方法依赖于HowNet语义知识词典, 未登录词的出现会导致初始聚类中心的选择有偏差, 影响聚类效果; 武森等[12]基于MapReduce, 利用“互为最小相似度文本对”选择二分簇中心, 提出通过一次划分实现簇质心寻优的二分K-means, 研究结果高效并且具有良好的扩展性, 但是其实验基于英文语料, 而和英文语料不同的是, 中文自然语言处理的过程更加复杂, 未登录词出现的频次大, 完全依赖现有的词表构建文本特征向量, 会导致聚类效果出现偏差。

综合上述研究, 本文创新点在于着眼大数据领域的岗位缺口现状, 利用机器学习的方法代替传统的统计学和计量学方法对大数据岗位信息进行挖掘, 以更好地分析大数据企业的对其岗位的需求; 在数据和方法上, 采用爬虫基于大数据职业关键词挖掘各大主流招聘网站大数据岗位相关招聘信息, 以传统的K-means算法为基础, 利用人工标注结合TF-IDF算法提取文本关键词实体, 并使用Word2Vec求得实体向量, 计算每个文本中包含的实体到聚类中心的距离, 以此给文本加权, 完成文本聚类; 利用轮廓系数确定k值, 最终获得聚类结果, 并对结果进行分析, 挖掘大数据企业需求。

2 数据获取以及预处理

本文所使用的数据源为前程无忧、看准网、拉勾网等主流招聘信息发布网站。利用Python编写网页爬虫工具, 对“数据产品经理”、“数据分析师”、“数据工程师”、“数据架构师”、“数据科学家”、“数据库管理员”以及“业务数据分析员” 7个检索词检索获取的结果进行抓取和去重处理, 并删除招聘信息文本量过短和英文内容超过50%的文本。

针对获取的文本, 再根据招聘需求文本中列举的条目进行切分。最终共获取55 287条需求文本数据作为聚类对象。

3 实体提取方法及聚类算法确定

3.1 实体提取方法

本文对职位要求的文本中的实体提取采用人工和机器相结合的方式, 整体提取流程如图1所示。

图1   实体提取流程

   

利用人工针对预处理后的文本中含有关键信息的词进行标注和抽取。针对某一个词是否包含关键信息的判断条件如表1所示。

表1   关键词识别类型

   

编号类型例子
1大数据技术名词Python、PostgreSQL、数据挖掘、数据分析
2工作经验3年、1-3年、5年数据库管理经验、经验不限
3学历要求本科、硕士、博士
4优先条件编写开源项目经验

新窗口打开

人工标注过程中对于某些词依旧会产生理解层面上的不一致等人为因素的误差。为消除这些误差, 在人工标注的基础上, 先形成一份人工标注词表。再利用Python调用jieba分词包中的用户自定义词典功能对预处理后的文本进行分词和去停用词处理, 停用词表主要使用的是哈尔滨工业大学的由567个汉语词汇构成的停用词表[13]。最后利用TF-IDF算法对文本的实体进行权值计算重新抽取。

在使用TF-IDF算法抽取过程中, 根据分词结果, 对在人工标注词表中出现的词进行加权处理, 属于人工标注词表的词赋予权值0.6, 不属于标注词表的则赋予0.4, 再结合TF-IDF计算出的结果进行过滤。在过滤过程中, 当一个文本内发生不属于标注词表的词的权重大于术语标注词表词的权重时, 则选择保留该词, 最终筛选出该文本中的实体。

3.2 文本向量化方法

本文使用Word2Vec[14-16]计算抽取出实体的向量。Word2Vec是Google于2013年开源的一个用于获取词向量的工具包。它是通过CBOW(Continuous Bag-Of-Words)和Skip-gram两种模型实现的。其中, CBOW模型是利用词wt在文中位置的前后c个词去预测当前词。与之相反, Skip-gram模型通过词wt预测其在文中位置的前后c个词。训练学习获得的词向量可继续将词所在的文本转变成向量, 从而方便文本进行语义层次上的相似度计算。利用得到的语义相似度可做进一步的自然语言处理或文本挖掘,如同义词查找、情感分析、文本分类聚类等。

Word2Vec作为开源算法已被大众所使用, 其原理也在众多研究中进行了非常详尽的阐述。本文使用的架构为CBOW, 其数学表达式如公式(1)所示。

$\begin{align} & p({{w}_{t}}|{{w}_{t}}-\frac{c}{2},\cdots ,{{w}_{t}}-1,{{w}_{t}}+1,\cdots ,{{w}_{t}}+\frac{c}{2})= \\ & \ \ \ \prod{_{i=1}^{c}}p(context(w)i) \\ \end{align}$ (1)

CBOW模型主要分为输入层(input)、投影层(projection)和输出层(output), 如图2所示。

图2   CBOW模型结构

   

其中, 输入层为wt在文中位置的前后文中各$\frac{c}{2}$个词的词向量。投影层则是对输入层中输入的c个向量进行累加, 公式为$Xw=\sum\nolimits_{i=1}^{c}{context(w)i}$, context(w)表示词w的前后文共c个词出现的概率。输出层则为一个巨大的二叉树, 它以语料库中出现的每一个词的频次作为权值而构建出来, 二叉树中的每一个节点即代表此语料库中的每一个词。该二叉树的构建算法为霍夫曼(Huffman)树。通过随机梯度上升算法对投影层向量Xw的结果进行预测, 使得$\prod{_{i=1}^{c}}\text{p}(context(w)i)$最大化。这个神经网络中输出层的霍夫曼树的叶子节点上的向量则为词的向量。

由于Word2Vec有多个版本实现, 本文所采用的是作为Python第三方包的已经封装入gensim[17]下的Word2Vec。gensim是一款作用于自然语言处理和信息检索领域的Python包, 其通过训练大规模语料, 实现主题建模、文献索引以及相似度计算。

3.3 实体聚类算法

关于对实体进行聚类算法的选择以及最小聚类个数的确认, 本文所使用的方法为K-means聚类算法并利用轮廓系数确定最终聚类个数。K-means实现简单, 计算的时间复杂度较低, 且多种类型的数据兼容, 但其缺点在于需要事先对k值进行选择判断且聚类的效果受第一次随机选择类的重心的影响。由于该算法使用广泛, 故对其原理不再赘述。

为了解k值选取的问题, 本文使用轮廓系数[18-19]k值的选取作为判断。轮廓系数是对聚类结果有效性的解释和验证。在聚类效果的评价中, 主要分为个体轮廓系数和全局轮廓系数。个体轮廓系数的计算如公式(2)所示。

${{s}_{i}}=\frac{{{b}_{i}}-{{a}_{i}}}{\max ({{a}_{i}}\text{,}{{b}_{i}})}$ (2)

其中, ai表示样本i到同类间其他样本之间的平均距离, bi表示样本i到与其最相近的类内部的样本的平均距离。ai称为样本i的簇内不相似度, 其值越小, 说明样本i被分到该类越合理。同样, bi越大, 说明样本i越不应当属于其他类。因此, 由公式(2)可知, si∈[-1,1]。且若si越接近1, 说明样本i聚类合理; 若si等于0, 则说明样本i处于两个类的边界上; 若si接近-1, 说明样本i聚类不合理, 应当被聚集到其他类上。

对所有样本的个体轮廓系数计算平均值, 则得到全局轮廓系数, 如公式(3)所示。

${{s}_{k}}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{s}_{i}}}$ (3)

其中, n表示样本个数, k表示已聚类的个数。

4 基于大数据工作岗位需求的文本聚类

4.1 模型构建思路

利用Word2Vec针对抽取出的实体进行多次聚类实验, 利用轮廓系数选取出最佳的聚类个数, 即k值。再利用实体的向量结合实体在文本中的权值对文本进行表达, 最终使得文本向量化, 如图3所示。

图3   文本聚类流程

   

4.2 词聚类效果评价

使用jieba分词工具对职位要求中的文本进行分词, 同时将实体抽取步骤产生的实体作为关键词表制作成自定义词典, 并且以每个词的词长作为权重设置词被切分的优先程度。利用jieba用户自定义词典的功能, 使得在分词过程中关键词能够根据其权值大小被保留而不被切分。如“数据分析师”和“资深数据分析师”词长分别为5和7。在根据关键词制作用户自定义词典时, 对每一个词赋予一个权值, 权值的大小即为该词的词长。jieba在进行分词的过程中, 根据权值的大小判断一个词被切分的优先程度, 即词的权值越大, 其越不容易被切分开, 因此“资深数据分析师”不会因为字典里还出现了“数据分析师”而被切分成“资深”和“数据分析师”两个词, 因为“资深数据分析师”权重为7, 大于“数据分析师”为5的权重, 会被程序优先保留不被切分。

对完成分词的文本进行输出, 作为Word2Vec的训练文本传入参数sentences; 而sg参数值为设置为0, 即使用CBOW模型; 由于本研究数据量较小, 因此向量维度初次设定为250及以下, 即size≤250, 具体数值通过实验而定; 又因为考虑到实体词在所有文本可能仅会出现一次, 并且其在文中权重较大, 因此min_count参数值为1; window参数值设为5, 即考虑每个词的前后5个词。其余参数则使用默认值。

根据Word2Vec获取的词向量结果, 对实体进行聚类。聚类方法是利用欧氏距离结合K-means聚类, 并且从中加入计算轮廓系数的算法, 以方便对聚类效果进行判断。最终获取的轮廓系数结果如表2图4所示。

表2   词向量维度分别为2、25、50、100和250时不同k值的轮廓系数

   

Size k3456
20.7350.7260.6220.597
250.7840.7790.7010.690
500.7920.7870.7120.711
1000.7970.7920.7220.719
2500.8020.7950.7270.728

新窗口打开

图4   词向量维度分别为2、25、50、100和250时不同k值的轮廓系数折线图

   

可以看出, 当词向量维度越大时其全局轮廓系数越接近1, 即表示聚类效果越好。从图4可以直观看出, 当k=3时, 5种不同维度的全局轮廓系数均高于0.730, 且当k=4时, 维度分别为25、50、100和250的全局轮廓系数也同样高于该水平, 说明词与词之间在空间向量模型上的位置较为紧密。并且, 当k≤4时, 全局轮廓系数变化不大; 当k>4时, 5种不同维度的词向量聚类的全局轮廓系数均出现断崖式的下降。因此, 最终选定词向量维度为250, k值为3的聚类方式进行词向量聚类。

4.3 基于加权词向量的文本聚类

采用加权词向量的文本聚类方法[20], 即利用每篇文本抽取出的实体结合在前文中获取的词权值进行累加, 如公式(4)所示。

$V(s)=\sum\limits_{i=1}^{n}{weight({{W}_{i}},s)\cdot v({{W}_{i}})}$ (4)

其中, V(s)表示s文本的向量, 为需要求得的值。n表示该文本包含的实体数量。而$weight({{W}_{i}},s)$则表示实体Wis这篇文本中的权重。$v({{W}_{i}})$为文本中每一个实体的词向量。

为更好地获取聚类效果, 本文对比基于加权词向量的K-means算法和传统的K-means文本的聚类效果, 利用全局轮廓系数进行评价。传统的K-means做法是对已去除停用词以及标点符号的文本结合Word2Vec进行聚类, 由于过程较为简单, 故不再赘述。最终聚类结果对比如图5所示。

图5   两种不同聚类方法在不同k值下的文本聚类轮廓系数折线图

   

可以看出, 改进后的K-means聚类效果的轮廓系数均高于传统的K-means聚类效果。当k=3时, 两种方法的轮廓系数均达到最大值, 其中改进后的K-means轮廓系数为0.373, 而传统的K-means的轮廓系数为0.334。并且两种方法在k=4时, 轮廓系数相当, 分别为0.323和0.321。因此根据实验结果, 改进后的K-means算法聚类效果要优于传统的聚类效果, 同时最佳聚类个数确定为3, 实际上这也是与前文的词向量聚类相互对应的。

4.4 文本聚类结果与分析

为进一步挖掘企业对大数据岗位的需求, 对参与到聚类的词进行统计, 并选取频次排名前30的词, 如表3所示。可以看出, 关键词频次超过1 000以上的分别为“本科及以上”、“计算机相关专业”、“有经验者优先”、“数据库”。可见该4个词在大数据岗位需求中是普遍出现的。在结果中, “本科及以上”频次为所有关键词中最高, 说明本科学历依旧是大数据岗位的需求主体; 与学历相关的关键词在频次前30的排名中仅出现4个, 其中还出现了“大专及以上”, 而对于硕士、博士等学历相关关键词暂未出现在前30的高频关键词中, 说明部分大数据岗位入职学历门槛较低, 大多大数据领域内的企业对学历不做特别高的要求; 而“计算机

相关专业”以及“统计学”强调了对求职者的技能基础要求。虽然大数据作为一门交叉学科, 结合了计算机学、经济学、信息计量学等学科, 但是拥有一定的计算机技术和统计学基础, 仍旧是大数据行业的优先入场门票。

表3   参与聚类的关键词词频

   

序号关键词频次序号关键词频次
1本科及以上1 52916良好的沟通能力416
2计算机相关专业1 43417责任心强371
3有经验者优先1 40818excel368
4数据库1 13119数据仓库367
5数据挖掘87420办公软件359
6统计学86821团队合作精神357
7三年以上72322业务需求351
8二年以上56423机器学习349
9一年以上55124hadoop341
10相关工作经验53825独立完成340
11数据库工程师51826对数据敏感330
12大数据46627学习能力324
13逻辑思维能力42828大专及以上306
14沟通能力42229数据处理296
15开发经验41730逻辑分析能力295

新窗口打开

关于工作经验, 出现最多次的为“有经验者优先”, 其次为“三、二、一年”, 说明大多企业对相关大数据工作经验有要求。由于大数据技术在我国从引入到广泛应用的周期较短, 国内现有的高等教育无法迅速跟上大数据的浪潮, 导致大数据人才出现脱节现象, 因此对于我国的大数据创业公司来说, 一方面面临着国内严重的大数据人才短缺现象, 无法将无检验的求职者完全排除在外, 另一方面则是求贤若渴, 因此有经验的求职者在大数据领域中将大受欢迎。

“数据库”作为大数据从业者的必备技能, 是对数据进行存储、修改、传递等操作的必要工具, 也是大数据产业链中必不可少的。但值得注意的是, 除了技术能力之外, 企业更加强调对求职者的大数据工作基本素养, 如“逻辑思维能力”、“数据分析能力”、“较强的学习能力”等。

根据前文文本聚类的轮廓系数对比获得的最佳聚类数量获取聚类结果, 其每个类的聚类个数及占比如图6所示。

图6   聚类个数为3时各类数量

   

图6可以看出, 大多数需求集中在第2类, 占比达到61.72%。第1类和第3类数量分布大致相当, 占比分别为20.06%和18.23%。由于本文聚类的对象为需求中的句子, 无法直观表达聚类内容。为了给聚类结果标记名称, 选取距离类中心最近的前500个句子, 并对这些句子进行切分, 统计每个类中参与到句子向量表达过程中的词, 取频次最高的前5个关键词。具体如表4所示。

表4   各类高频关键词

   

类编号关键词词频
#1经验34
海量数据20
经验者优先18
有经验者7
设计经验6
#2良好的沟通能力128
团队合作精神116
责任心强90
沟通能力59
和团队合作精神55
#3专业21
本科及以上16
双休7
本科以上6
大专及以上4

新窗口打开

表4可以看出, 1号类距离类中心最近的关键词主要体现在工作经验上, 2号类的关键词主要体现在工作能力需求上, 3号类的关键词则主要体现在学历上。2号类的关键词频次远高于其他两个类, 说明和工作能力相关的关键词聚类较集中。再结合表3, 2号类占比大于其他两个类的原因在于在训练的语料中, 有关工作能力的需求文本量要大于其他两个类, 这是由于企业在发布岗位要求信息的时候, 对于工作能力的内容描述要求是往往要多于工作经验以及学历的要求。因此, 最终可以将聚类的结果分别定为学历要求、工作能力要求以及对工作经验的要求。

为更深一步探究大数据岗位对技术技能的需求, 本文先排除个人工作素养相关关键词, 根据前文的词聚类和文本聚类结果并结合大数据技能类型关键词, 对技术技能关键词进行统计, 结果如图7所示。

图7   工作能力需求中各类技术技能占比

   

可以看出, 数据库技能一类占比40.22%, 其包括数据库管理、MySQL、NoSQL等各种数据库技术和工具, 这表明各大数据企业普遍需要求职者掌握数据库技能, 这一结果和表3的分析结果是对应的; 占比排名第二是编程语言(11.42%), Java和Python两种语言为大数据领域的主流编程语言; 排名第三的是分布式处理平台, 其包含“Hadoop”、“MapReduce”等分布式计算框架, 可见由于处理的数据量庞大, 企业对于掌握分布式计算框架的人才是亟需的; 排名第4的为办公软件一类, 占比7.67%; 数据结构及算法作为计算机领域的基本技能, 在技术技能需求中占比7.54%; 机器学习算法及工具包括“深度学习”、“TensorFlow”等当下热度较高的人工智能算法, 其占比6.89%。这说明虽然当下人工智能在大数据领域应用火热, 但是在国内大数据企业对人才能力需求依旧以数据库、编程语言和分布式计算等技能为主流。

5 结 语

本研究通过网络挖掘获取海量的大数据岗位招聘信息, 结合人工标注和改进的TF-IDF算法抽取招聘信息文本中的实体, 利用K-means算法和轮廓系数确定实体转化成向量的最佳维度大小和聚类个数。利用确定维度的实体向量对实体所在的文本进行向量化, 完成文本聚类, 并再次利用轮廓系数对文本聚类个数进行确定和评价, 将职位要求文本聚类确定为能力要求、学历要求以及工作经验要求三类。在研究过程中, 事先利用人工标注和关键词抽取算法对文本中包含了特征性的实体进行抽取, 并对这些实体的向量进行加权累加, 完成对文本的向量化, 这种方法使得构造出的文本更加具备特征性, 从而获得较精确的聚类模型。

对于大数据企业岗位需求的挖掘, 本文分析了聚类结果并得出以下结论。由于大数据技术起步较晚, 国内大多数高校并没有开设大数据相关的硕士和博士点, 因此大数据就业学历门槛较其他行业较低。其次, 因为对海量数据的处理要求具备基本的控制和操作能力, 因此计算机专业依旧是岗位需求的主流。而从工作能力需求来看, 企业对大数据工作素养的要求明显多于计算机技能。对于工作经验要求, 企业偏好于使用“优先”一词, 即和一般企业校招培训的模式不同, 其更加注重于“择优录取”。针对大数据工作能力需求一类的细化分析, 数据库作为大数据基本技能在工作能力需求中占比最大。在大数据领域的编程语言中, Java的需求量依旧最大, 而Python由于其简洁、模块化和包管理等特点使其在大数据领域被广泛使用, 也因此成为大数据企业最热衷的编程语言之一。

同时, 本研究亦存在一些不足之处: 各大主流招聘网站的信息发布格式参差不齐, 在数据清洗过程中造成很多困难, 也对后续的聚类效果产生了一定影响, 使聚类后的某些文本不属于该类; Word2Vec模型通常需要大型的训练集生成词向量, 其训练语料通常为TB级别以上的TXT文件。然而由于招聘信息存在时效性, 过于久远的招聘信息会失效, 因此获取时间跨度较大的信息是不科学的, 这也造成了Word2Vec模型训练集过小的问题, 无法生成更为精确的词向量。

作者贡献声明:

王东波: 提出研究思路, 设计研究方案;

刘睿伦: 采集、清洗和分析数据, 进行实验, 起草论文;

叶文豪: 论文修改;

高瑞卿: 数据处理;

唐梦嘉: 数据分析;

王东波, 刘睿伦: 论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: db.wang@njau.edu.cn。

[1] 刘睿伦, 王东波. Data_position.sqlite. 大数据岗位数据.


参考文献

[1] 国家信息中心. 《

2017中国大数据发展报告

》[J]. 新西部(上), 2017(3): 7.

[本文引用: 1]     

(State Information Center.

Report of Big Bata Development in China2017

[J].

New West

, 2017(3): 7.)

[本文引用: 1]     

[2] Lukić J.

The New Job Positions for Working with Big Data Technologies and Their Placement in Companies Worldwide: Evidence from Empirical Research

[J]. Facta Universitatis: Economics and Organization, 2016, 13(3): 301-312.

URL      [本文引用: 1]      摘要

The question regarding the impact of modern technologies on organizational design has become an important and attractive issue in the theory and practice of management and organization again with the development of Big Data technologies. Those technologies represent new technologies, techniques, tools, knowledge, skills and methods for collecting, processing and analyzing data with new attributes (quantity, structure, speed). On the one hand, Big Data technologies are the factor from environment that confronts the companies with large quantities of data from variety of sources, while on the other hand those technologies represent the resource of organization which allows the companies that use them to make value on the basis of collected data. One of the first changes that comes with the implementation of Big Data technologies in company is establishment of new job positions because companies must have employees with new knowledge and skills. The aim of this paper is to identify, through empirical research, the new job positions for working with Big Data technologies, required knowledge and skills of those employees and how they are placed in the company.
[3] Kim J Y, Lee C K.

An Empirical Analysis of Requirements for Data Scientists Using Online Job Postings

[J]. International Journal of Software Engineering and Its Applications, 2016, 10(4): 161-172.

https://doi.org/10.14257/ijseia.2016.10.4.15      URL      [本文引用: 1]      摘要

A data scientist is a relatively new job title and is not yet fully defined or understood. Little research has been conducted on data scientists and there is still incongruity among its practitioners. Yet, the job market for data scientists is already active with high demand. Many companies have created their own definition of a data scientist based on their own needs. The purpose of this research is to explore the definition of a data scientist by examining how it is accepted in these industries and businesses. A content analysis of 1,240 job ads from various companies recruiting data scientists was conducted to identify what types of knowledge and skills were generally demanded. As a result, we found that data scientists were expected to be highly experienced professionals with advanced degrees. The main requisite areas of profession were statistics, modeling, machine learning, and analysis.
[4] 夏火松, 潘筱听.

基于Python挖掘的大数据学术研究与人才需求的关系研究

[J]. 信息资源管理学报, 2017, 7(1): 4-12.

https://doi.org/10.13365/j.jirm.2017.01.004      URL      [本文引用: 1]      摘要

本文以CNKI数据库收录的2006-2016年的硕博士相关论文与智联招聘网站27个热门城市硕博士学历的相关招聘信息为数据来源,分析了当前我国大数据在学界和业界的地域分布,学科(行业)分布和热点分布的现状,呈现了研究结果的可视化关系,发现了我国大数据人才需求特点与学术研究间的关系.从研究和人才需求关系的视角上弥补了关于大数据的文献计量重视学界研究分布趋势,而忽视业界人才需求的不足,其研究结果对企业和高校均有所启示.

(Xia Huosong, Pan Xiaoting.

Research on Relationship Between Big Data’s Academic Research and It’s Talent Demand Based on Python

[J]. Journal of Information Resources Management, 2017, 7(1): 4-12.)

https://doi.org/10.13365/j.jirm.2017.01.004      URL      [本文引用: 1]      摘要

本文以CNKI数据库收录的2006-2016年的硕博士相关论文与智联招聘网站27个热门城市硕博士学历的相关招聘信息为数据来源,分析了当前我国大数据在学界和业界的地域分布,学科(行业)分布和热点分布的现状,呈现了研究结果的可视化关系,发现了我国大数据人才需求特点与学术研究间的关系.从研究和人才需求关系的视角上弥补了关于大数据的文献计量重视学界研究分布趋势,而忽视业界人才需求的不足,其研究结果对企业和高校均有所启示.
[5] 黄崑, 王凯飞, 王珊珊, .

数据类岗位招聘需求调查及对图情学科人才培养的启示

[J]. 图书情报知识, 2016(6): 42-53.

https://doi.org/10.13366/j.dik.2016.06.042      URL      [本文引用: 1]      摘要

从智联招聘网站收集了数据分析、数据管理、数据挖掘三类岗位2615则招聘信息,运用内容分析法从职位基本信息、岗位职责、任职要求三个方面分析了三类岗位对人才知识和能力的要求.结果发现:分析类岗位更注重数据收集和分析相关的知识和能力,通常需要制作分析报表或提出工作方案i管理类岗位更注重数据的管理、维护、安全以及保存,强调数据库管理的基本能力和网络设备、计算机硬件的管理能力;挖掘类岗位则对技术性能力要求较高,表现在基础的数据统计分析能力,以及一定的计算机知识和编程能力,掌握相关数据挖掘算法.最后,从课程内容设置、同类课程的衔接、学生修课推荐等方面提出了图情学科人才培养的建议.

(Huang Kun, Wang Kaifei, Wang Shanshan, et al.

Survey on the Demand of Data Post Recruitment and Its Enlightenment to the Talent Cultivation of the Library and Information Science

[J]. Document, Inofrmation & Knowledge, 2016(6): 42-53.)

https://doi.org/10.13366/j.dik.2016.06.042      URL      [本文引用: 1]      摘要

从智联招聘网站收集了数据分析、数据管理、数据挖掘三类岗位2615则招聘信息,运用内容分析法从职位基本信息、岗位职责、任职要求三个方面分析了三类岗位对人才知识和能力的要求.结果发现:分析类岗位更注重数据收集和分析相关的知识和能力,通常需要制作分析报表或提出工作方案i管理类岗位更注重数据的管理、维护、安全以及保存,强调数据库管理的基本能力和网络设备、计算机硬件的管理能力;挖掘类岗位则对技术性能力要求较高,表现在基础的数据统计分析能力,以及一定的计算机知识和编程能力,掌握相关数据挖掘算法.最后,从课程内容设置、同类课程的衔接、学生修课推荐等方面提出了图情学科人才培养的建议.
[6] De Mauro A, Greco M, Grimaldi M, et al.

Beyond Data Scientists: A Review of Big Data Skills and Job Families

[C]// Proceedings of the 2016 International Forum on Knowledge Asset Dynamics. 2016: 1844-1857.

[本文引用: 1]     

[7] Debortoli S, Müller O, Vom Brocke J.

Comparing Business Intelligence and Big Data Skills

[J]. Business & Information Systems Engineering, 2014, 6(5): 289-300.

https://doi.org/10.1007/s12599-014-0344-2      URL      [本文引用: 1]      摘要

While many studies on big data analytics describe the data deluge and potential applications for such analytics, the required skill set for dealing with big data has not yet been studied empirically. The difference between big data (BD) and traditional business intelligence (BI) is also heavily discussed among practitioners and scholars. We conduct a latent semantic analysis (LSA) on job advertisements harvested from the online employment platform monster.com to extract information about the knowledge and skill requirements for BD and BI professionals. By analyzing and interpreting the statistical results of the LSA, we develop a competency taxonomy for big data and business intelligence. Our major findings are that (1) business knowledge is as important as technical skills for working successfully on BI and BD initiatives; (2) BI competency is characterized by skills related to commercial products of large software vendors, whereas BD jobs ask for strong software development and statistical skills; (3) the demand for BI competencies is still far bigger than the demand for BD competencies; and (4) BD initiatives are currently much more human-capital-intensive than BI projects are. Our findings can guide individual professionals, organizations, and academic institutions in assessing and advancing their BD and BI competencies.
[8] Steinhaus H.

Sur la Division des Corp Materiels en Parties

[J]. Bulletin L’Academie Polonaise des Science, 1956, 4: 801-804.

URL      [本文引用: 1]     

[9] MacQueen J.

Some Methods for Classification and Analysis of MultiVariate Observations

[C]// Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967: 281-297.

[本文引用: 1]     

[10] Dhillon I S, Modha D S.

Concept Decompositions for Large Sparse Text Data Using Clustering

[J]. Machine Learning, 2001, 42(1-2): 143-175.

https://doi.org/10.1023/A:1007612920971      URL      Magsci      [本文引用: 1]      摘要

<a name="Abs1"></a>Unlabeled document collections are becoming increasingly common and available; mining such data sets represents a major contemporary challenge. Using words as features, text documents are often represented as high-dimensional and sparse vectors&#x2013;a few thousand dimensions and a sparsity of 95 to 99% is typical. In this paper, we study a certain <i>spherical k-means</i> algorithm for clustering such document vectors. The algorithm outputs <i>k</i> disjoint clusters each with a <i>concept vector</i> that is the centroid of the cluster normalized to have unit Euclidean norm. As our first contribution, we empirically demonstrate that, owing to the high-dimensionality and sparsity of the text data, the clusters produced by the algorithm have a certain <img src="/content/T61745L4031444R5/xxlarge8220.gif" alt="ldquo" align="MIDDLE" border="0">fractal-like<img src="/content/T61745L4031444R5/xxlarge8221.gif" alt="rdquo" align="MIDDLE" border="0"> and <img src="/content/T61745L4031444R5/xxlarge8220.gif" alt="ldquo" align="MIDDLE" border="0">self-similar<img src="/content/T61745L4031444R5/xxlarge8221.gif" alt="rdquo" align="MIDDLE" border="0"> behavior. As our second contribution, we introduce <i>concept decompositions</i> to approximate the matrix of document vectors; these decompositions are obtained by taking the least-squares approximation onto the linear subspace spanned by all the concept vectors. We empirically establish that the approximation errors of the concept decompositions are close to the best possible, namely, to truncated singular value decompositions. As our third contribution, we show that the concept vectors are localized in the word space, are sparse, and tend towards orthonormality. In contrast, the singular vectors are global in the word space and are dense. Nonetheless, we observe the surprising fact that the linear subspaces spanned by the concept vectors and the leading singular vectors are quite close in the sense of small principal angles between them. In conclusion, the concept vectors produced by the spherical <i>k</i>-means algorithm constitute a powerful sparse and localized <img src="/content/T61745L4031444R5/xxlarge8220.gif" alt="ldquo" align="MIDDLE" border="0">basis<img src="/content/T61745L4031444R5/xxlarge8221.gif" alt="rdquo" align="MIDDLE" border="0"> for text data sets.
[11] 黄建宇, 周爱武, 肖云, .

基于特征空间的文本聚类

[J]. 计算机技术与发展, 2017, 27(9): 75-77.

https://doi.org/10.3969/j.issn.1673-629X.2017.09.016      URL      [本文引用: 1]      摘要

文本聚类是聚类算法的一种具体应用,随着互联网的发展,文本聚类应用越来越广泛,譬如在信息检索、智能搜索引擎等方面都有较为广泛的应用.文本聚类算法主要涉及文本预处理和文本聚类算法,故对文本聚类进行改进可以从这两方面入手.传统文本聚类的文本预处理采用VSM模型,该模型不考虑词与词的语义相似度和词与词的相关性,导致文本聚类精确度非常低.针对该问题,提出了基于特征空间文本聚类的方法.该方法根据文档集合的特征空间构造一个替代词库,并根据这个替代词库得到文档的主题,依据主题配合其对应的领域词典对文档词进行相应的替换.传统的文本聚类使用K-means算法,但该算法需要人工指定K值.为此,提出了基于K值优化的K-means改进算法.实验结果表明,所提出的文本聚类方法和K-means改进算法显著提高了文本聚类的智能性和精确性.

(Huang Jianyu, Zhou Aiwu, Xiao Yun, et al.

Text Clustering Based on Feature Space

[J]. Computer Technology and Development, 2017, 27(9): 75-77.)

https://doi.org/10.3969/j.issn.1673-629X.2017.09.016      URL      [本文引用: 1]      摘要

文本聚类是聚类算法的一种具体应用,随着互联网的发展,文本聚类应用越来越广泛,譬如在信息检索、智能搜索引擎等方面都有较为广泛的应用.文本聚类算法主要涉及文本预处理和文本聚类算法,故对文本聚类进行改进可以从这两方面入手.传统文本聚类的文本预处理采用VSM模型,该模型不考虑词与词的语义相似度和词与词的相关性,导致文本聚类精确度非常低.针对该问题,提出了基于特征空间文本聚类的方法.该方法根据文档集合的特征空间构造一个替代词库,并根据这个替代词库得到文档的主题,依据主题配合其对应的领域词典对文档词进行相应的替换.传统的文本聚类使用K-means算法,但该算法需要人工指定K值.为此,提出了基于K值优化的K-means改进算法.实验结果表明,所提出的文本聚类方法和K-means改进算法显著提高了文本聚类的智能性和精确性.
[12] 武森, 冯小东, 杨杰, .

基于MapReduce的大规模文本聚类并行化

[J]. 北京科技大学学报, 2014, 36(10): 1411-1419.

[本文引用: 1]     

(Wu Sen, Feng Xiaodong, Yang Jie, et al.

Parallel Clustering of Very Large Document Datasets with MapReduce

[J]. Journal of University of Science and Technology Beijing, 2014, 36(10): 1411-1419.)

[本文引用: 1]     

[13] 王东波, 韩普, 沈耕宇, .

基于汉英词性组合的短语级平行语料类别知识挖掘研究

[J]. 图书情报工作, 2013, 57(11): 106-111.

https://doi.org/10.7536/j.jssn.0252-3116.2013.11.020      URL      Magsci      [本文引用: 1]      摘要

基于通过具体实验确定的 Bisecting K-means聚类和Lemmatization形态变换算法,在汉英短语级人文社会科学平行语料基础上,尝试进行类别知识挖掘的实验。在中文社会科学引 文索引(CSSCI)的类别和标题知识基础上,完成对汉英语料的预处理,并分析名词、动词和形容词的分布状况。在名词、动词和形容词等词性的组合基础上, 对比不同词性组合的效果并确定最优的词性组合类别知识挖掘模型。

(Wang Dongbo, Han Pu, Shen Gengyu, et al.

Research of Mining the Category Knowledge Based on Chinese-English Part of Speech Sequence Parallel Corpus in Phrase Level

[J]. Library and Information Service, 2013, 57(11): 106-111.)

https://doi.org/10.7536/j.jssn.0252-3116.2013.11.020      URL      Magsci      [本文引用: 1]      摘要

基于通过具体实验确定的 Bisecting K-means聚类和Lemmatization形态变换算法,在汉英短语级人文社会科学平行语料基础上,尝试进行类别知识挖掘的实验。在中文社会科学引 文索引(CSSCI)的类别和标题知识基础上,完成对汉英语料的预处理,并分析名词、动词和形容词的分布状况。在名词、动词和形容词等词性的组合基础上, 对比不同词性组合的效果并确定最优的词性组合类别知识挖掘模型。
[14] Mikolov T, Chen K, Corrado G, et al.

Efficient Estimation of Word Representations in Vector Space

[OL]. arXiv PrePrint, arXiv:1301.3781, 2013.

URL      [本文引用: 1]      摘要

Abstract: We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The quality of these representations is measured in a word similarity task, and the results are compared to the previously best performing techniques based on different types of neural networks. We observe large improvements in accuracy at much lower computational cost, i.e. it takes less than a day to learn high quality word vectors from a 1.6 billion words data set. Furthermore, we show that these vectors provide state-of-the-art performance on our test set for measuring syntactic and semantic word similarities.
[15] Mikolov T, Sutskever I, Chen K, et al.

Distributed Representations of Words and Phrases and their Compositionality

[C] // Advances in Neural Information Processing Systems 26(NIPS 2013). 2013.

[16] 姜霖, 王东波. 采用连续词袋模型(

CBOW)的领域术语自动抽取研究

[J]. 现代图书情报技术, 2016(2): 9-15.

[本文引用: 1]     

(Jiang Lin, Wang Dongbo.

Automatic Extraction of Domain Terms Using Continuous Bag-of-Words Model

[J]. New Technology of Library and Information Service, 2016(2): 9-15.)

[本文引用: 1]     

[17] Řehůřek R.Models.Word2Vec - Deep Learning with Word2Vec [EB/OL].[2017-07-26]. .

URL      [本文引用: 1]     

[18] 张冬梅.

基于轮廓系数的层次聚类算法研究

[D]. 秦皇岛: 燕山大学, 2009.

[本文引用: 1]     

(Zhang Dongmei.

Research on Hierarchical Clustering Algorithm Based on Silhouette

[D]. Qinhuangdao: Yanshan University, 2009.)

[本文引用: 1]     

[19] 朱连江, 马炳先, 赵学泉.

基于轮廓系数的聚类有效性分析

[J]. 计算机应用, 2010, 30(S2): 139-141.

[本文引用: 1]     

(Zhu Lianjiang, Ma Bingxian, Zhao Xuequan.

Clustering Validity Analysis Based on Silhouette Coefficient

[J]. Journal of Computer Applications, 2010, 30(S2): 139-141.)

[本文引用: 1]     

[20] 江大鹏.

基于词向量的短文本分类方法研究

[D]. 杭州: 浙江大学, 2015.

[本文引用: 1]     

(Jiang Dapeng.

Research on Short Text Classification Based on Word Distributed Representation

[D]. Hangzhou: Zhejiang University, 2015.)

[本文引用: 1]     

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn

/