搜索和阅读简历占据了招聘的大部分时间。在 HR 搜索或阅读简历时,需要根据简历名称或工作内容对简历类别进行判断,简历类别的 “区分度” 越高,HR 越容易通过搜索定位到对应的简历,也越容易甄别出简历与空缺岗位的匹配度。

导言

假定简历库中有 10000 份名为 “软件工程师” 的简历。 一位 HR 在查找 “Android 工程师” 时仅重视称号为 “Android 工程师” 的简历,她将遗失 912 份有或许匹配的简历;假如这位 HR 乐意花时刻自始至终通读每一份 “软件工程师” 的简历,将其间真实从事 Android 研制的简历挑选出来,那么她需求多阅读 9088 份无效的软件工程师简历。假定阅读一份简历需求 15 秒,这项作业将占有她 38 小时。

一、低区别度的简历——躲藏的招聘雷区

查找和阅读简历占有了招聘的大部分时刻。在 HR 查找或阅读简历时,需求依据简历称号或作业内容对简历类别进行判别,简历类其他 “区别度” 越高,HR 越简略经过查找定位到对应的简历,也越简略鉴别出简历与空缺岗位的匹配度。

例如,HR 在招聘一名 “Android 工程师” 时,非常喜爱那些在职位称号为 “Android 工程师” 的简历,因为能够很方便地查找和辨认。这部分简历能够界说为高区别度简历。

可令人头疼的是,许多提名人的简历并未照顾到招聘者的运用体会。例如一名软件工程师在他的简历中提到了多项编程技能,并将简历称号定为 “软件工程师”,给体系查找定位到这份简历造成了极大的难度。这就意味着:因为 JD 的编写办法与提名人编写简历办法的天然差异,很多阅历匹配的简历在查找时被遗失,许多作业内容里包括这些关键字的简历(比方招聘专员)实践却又毫不相关。

二、很多的低区别度简历增加了鉴别难度

咱们从简历库中抽样了 1479818 份互联网职业中包括 “工程师” 的简历数据,按简历称号进行核算,从高到低排序后截取 Top15 展示如下:

我是怎么用机器学习技能协助HR省时刻的 我是如何用机器学习技能协助HR省时间的  机器学习 HR 简历 第1张
<图 1 - 高频职位称号核算数据>

由核算数据能够看出,类别区别度低的简历在全体简历数据中占比较大。例如互联网职业中包括很多 “软件工程师”、“高档软件工程师”、“软件研制工程师”、“研制工程师” 简历,占抽样总数的 25.7%,但这部分简历却无法容易判别提名人对应的技能方向。

实践上,Java 工程师、PHP 工程师、后端开发工程师等均可称为软件工程师。有很多 Title 为 “软件工程师” 的简历,需求依据职位或作业描绘进一步判别详细类别。

例如对简历进行查找时,输入 “Python 工程师”,简历称号中含 Python 的简历或许较少,导致查找成果数量丰厚度不高。但假如经过模型能够判别简历称号为软件工程的详细人物,增强简历的区别度,则可在软件工程师的简历中挑选归于 Python 工程师的简历,进一步进步查找的丰厚度。

三、经过机器学习办法进步人物辨认的精确度

1、树立合理的职位了解

增强简历的区别度,能够了解为 “怎么更精确地了解职位,包括职位的不同表达办法,以及与该职位相关的技能模型”——这件事能够依据一张专业词表完结。

例如咱们界说一个简略的词表——“软件工程师” 为一级类别,其部属二级技能类别分为 Java、C++、PHP、.NET、Python、Delphi、Perl 等。这张词表界说了清晰的职位 / 技能联系,当词表在 “阅读” 一份名为 “软件工程师” 的简历时,它实践阅读的是上述技能。

聘宝的常识图谱更为杂乱,除技能分支外,还包括职业、公司等很多维度。

我是怎么用机器学习技能协助HR省时刻的 我是如何用机器学习技能协助HR省时间的  机器学习 HR 简历 第2张
<图 2 - 聘宝的职位技能常识图谱节选>

2、怎么进行高效的人物分类辨认核算

深度学习办法近期在文本处理范畴大受欢迎,但需求留意的是它们的练习以及测验进程非常缓慢,以至于工程运用时门槛颇高。

在进行了一系列的技能计划调研与比较后,咱们测验比照剖析了三种机器学习的文本分类算法: TextGrocery,fastText,Naive Bayes。

TextGrocery—是一个依据 LibShortText 和结巴分词的短文本分类东西,依据线性核 SVM 分类器,运用二元分词(Bigram),不去中止词,不做词性过滤一同支撑中文和英文语料,让文本分类变得简略。

fastText—由 FAIR(Facebook AI)开发的一款快速文本分类器,供给简略而高效的文本分类和表征学习的办法,出自 Word2Vec 作者 Mikolov 的论文《Bag of Tricks for Efficient Text Classification》

fastText 合适大型数据 + 高效的练习速度,能够练习模型 “在运用规范多核 CPU 的情况下 10 分钟内处理超越 10 亿个词汇”,与深度模型比照,fastText 能将练习时刻由数天缩短到几秒钟。FastText 的功能要比时下盛行的 word2vec 东西显着好上不少,也比其他现在最先进的词态词汇表征要好。

我是怎么用机器学习技能协助HR省时刻的 我是如何用机器学习技能协助HR省时间的  机器学习 HR 简历 第3张
<图 3-fastText 分类器模型示意图>

我是怎么用机器学习技能协助HR省时刻的 我是如何用机器学习技能协助HR省时间的  机器学习 HR 简历 第4张
<图 4-fastText 模型架构>

Naive Bayes——由贝叶斯定理延伸而来的概率模型,它依据每个特征的概率确认一个目标归于某一类其他概率。该办法假定一切特征需求彼此独立,即任一特征的值和其他特征的值没有相关联系。

在自然言语处理范畴,处理的的数据能够看做是在文本文档中标示数据,这些数据能够作为练习数据集来运用机器学习算法进行练习。

在练习样本时,构建能够表征文本的特征向量 (词汇表),并依据这个特征向量将练习集表征出来,核算各个类其他频率作为该类的先验概率,和在每个类别条件下各个特征特色的条件概率,分类时,依据贝叶斯公式核算待分类语句在每一类其他后验概率,取最大值作为其分类。

我是怎么用机器学习技能协助HR省时刻的 我是如何用机器学习技能协助HR省时间的  机器学习 HR 简历 第5张
<图 5-Naïve Bayes 模型架构>

四、一个简略的分类辨认试验

为更好地剖析不同技能手段在增强简历区别度上的作用,咱们进行了一项简略的比较试验,来展示算法是怎么把低区别度的简历如 “软件工程师” 进行详细的技能方向分类的。

1、试验数据集的预备:

选取 680731 份依据职位称号判别归于二级类其他工程师简历数据,随机抽样取 80% 的数据做练习数据,剩下 20% 份作测验数据。

我是怎么用机器学习技能协助HR省时刻的 我是如何用机器学习技能协助HR省时间的  机器学习 HR 简历 第6张
<图 6 - 试验数据集的散布>

2、试验作用体现:

经过试验咱们发现,经过机器学习办法,咱们能够快速辨认低区别度简历并进行精确的分类,然后能够极大的下降人工查找与阅读的时刻。

我是怎么用机器学习技能协助HR省时刻的 我是如何用机器学习技能协助HR省时间的  机器学习 HR 简历 第7张
<图 7 - 各个类别猜测精确率的散布>

比照上面模型成果, fastText 模型依据词袋的针对英文的文本分类办法,组成英文语句的单词是有距离的;而中文文本是接连的,因而对中文文本,则需分词去标点转化为模型所需求的数据格式,但分类作用一般,尤其是类别间区别度不是很大的情况下。别的参数调优对模型成果影响较大,但模型优势在于练习时刻很短。所以 fastText 模型更合适做类别区别度更大且考究分类功率的运用场景,比方将一则新闻主动划归到财经、军事、社会、文娱等板块。

TextGrocery 模型是专门针对短文本的分类模型,直接输入文本,无需做特征向量化的预处理,不去中止词,不做词性过滤,高雅的 API 接口,但模型精确率和模型练习时刻在此人物猜测模型中不是太杰出。

Naive Bayes 为传统的文本分类模型,特征向量化的预处理相对繁琐、练习时刻较长,但在分类类别多文本区别度不大的情况下,分类作用比较其他两种算法更为优异。这个试验成果旁边面阐明,在产品完成时勿过度寻求 “时尚” 的技能。对某一项特定事务来说,有助于事务完成更优作用的技能便是最好的技能。

聘宝在面临低区别度简历时的人物辨认算法,吸收结合了上述各类算法的特色,面临不同场景条件时调配运用,完成了更优的分类作用,在 TMT 职业首要职位类型上的辨认精确率高于 75%。

以 “软件工程师” 为比如,在聘宝中输入归于软件工程师的职位描绘,猜测出或许的人物,作用如下图:

我是怎么用机器学习技能协助HR省时刻的 我是如何用机器学习技能协助HR省时间的  机器学习 HR 简历 第8张
<图 8 - 聘宝人物辨认作用示例>

关于其他职业低区别度的简历,相同能够练习出对应的模型。假如单个职业猜测类别不必过细的话,能够将很多职业数据混合一同练习模型进行猜测。

依据该试验的样本数据,假定简历库中有 1 万份名为 “软件工程师” 的简历。 一位 HR 在查找 “Android 工程师” 时仅重视简历称号为 “Android 工程师” 的简历,她将遗失 912 份有或许匹配的简历——这些简历均被冠以 “软件工程师” 的职位称号;假如这位 HR 乐意花时刻自始至终通读每一份 “软件工程师” 的简历,将其间真实从事 Android 研制作业的简历挑选出来,那么她需求多阅读 9088 份无效的软件工程师简历,假定阅读一份简历需求 15 秒,这项作业将占有她 38 小时。

人物辨认除了在简历检索方面的运用,在其他方面也有广泛的运用空间。 如薪资猜测, 依据作业描绘猜测人物作为特征变量,将有助于进步猜测薪资的精确性。

又例如简历解析, 将简历详情页的各个区块作为文本,猜测各区块所属的信息类型(如作业经验、教育阅历等)后再运用对应的解析程序对区块进行解析,将大大进步简历详情页面的解析功率。

咱们一直信任技能能够进步作业功率,也正因而咱们在简历的剖析与匹配作业上继续深耕三年,信任在机器学习技能的协助下,HR 的招聘作业将变得愈加省时高效。

参考文献:

[1] 超快的 fastText[EB/OL]. 超快的 fastText, 2017-04-10/2017-04-24.

[2] Library for fast text representation and classification.[EB/OL].facebookresearch/fastText, 2017-04-10/2017-04-24.

[3] TEXTGROCERY,更好用的文本分类 PYTHON 库 [EB/OL]. 岭南六少 - 一朵在 LAMP 架构下挣扎的云, 2017-04-10/2017-04-24.

[4] LibShortText 扼要入门 [EB/OL].http://guoze.me/2014/09/25/libshorttext-introduction/, 2017-04-10/2017-04-24.

[5] NLP 系列 (2)_用 Naive Bayes 进行文本分类 (上)[EB/OL].NLP 系列 (2)_用朴素贝叶斯进行文本分类 (上) - 龙心尘 - 博客频道 - CSDN.NET, 2017-04-10/2017-04-24.

[6] 从 Naive Bayes 到 N-gram 言语模型 [EB/OL]. NLP 系列 (5)_从朴素贝叶斯到 N-gram 言语模型 - 龙心尘 - 博客频道 - CSDN.NET, 2017-04-10/2017-04-24.

[7] Bag of Tricks for Efficient Text Classification[EB/OL]. Bag of Tricks for Efficient Text Classification, 2017-04-10/2017-04-24.

转载请说明出处
知优网 » 我是如何用机器学习技能协助HR省时间的

发表评论

您需要后才能发表评论