我是如何用机器学习技能协助HR省时间的-人工智能-知优网

搜索和阅读简历占据了招聘的大部分时间。在 HR 搜索或阅读简历时，需要根据简历名称或工作内容对简历类别进行判断，简历类别的 “区分度” 越高，HR 越容易通过搜索定位到对应的简历，也越容易甄别出简历与空缺岗位的匹配度。

导言

假定简历库中有 10000 份名为 “软件工程师” 的简历。一位 HR 在查找 “Android 工程师” 时仅重视称号为 “Android 工程师” 的简历，她将遗失 912 份有或许匹配的简历;假如这位 HR 乐意花时刻自始至终通读每一份 “软件工程师” 的简历，将其间真实从事 Android 研制的简历挑选出来，那么她需求多阅读 9088 份无效的软件工程师简历。假定阅读一份简历需求 15 秒，这项作业将占有她 38 小时。

一、低区别度的简历——躲藏的招聘雷区

查找和阅读简历占有了招聘的大部分时刻。在 HR 查找或阅读简历时，需求依据简历称号或作业内容对简历类别进行判别，简历类其他 “区别度” 越高，HR 越简略经过查找定位到对应的简历，也越简略鉴别出简历与空缺岗位的匹配度。

例如，HR 在招聘一名 “Android 工程师” 时，非常喜爱那些在职位称号为 “Android 工程师” 的简历，因为能够很方便地查找和辨认。这部分简历能够界说为高区别度简历。

可令人头疼的是，许多提名人的简历并未照顾到招聘者的运用体会。例如一名软件工程师在他的简历中提到了多项编程技能，并将简历称号定为 “软件工程师”，给体系查找定位到这份简历造成了极大的难度。这就意味着：因为 JD 的编写办法与提名人编写简历办法的天然差异，很多阅历匹配的简历在查找时被遗失，许多作业内容里包括这些关键字的简历(比方招聘专员)实践却又毫不相关。

二、很多的低区别度简历增加了鉴别难度

咱们从简历库中抽样了 1479818 份互联网职业中包括 “工程师” 的简历数据，按简历称号进行核算，从高到低排序后截取 Top15 展示如下：

<图 1 - 高频职位称号核算数据>

由核算数据能够看出，类别区别度低的简历在全体简历数据中占比较大。例如互联网职业中包括很多 “软件工程师”、“高档软件工程师”、“软件研制工程师”、“研制工程师” 简历，占抽样总数的 25.7%，但这部分简历却无法容易判别提名人对应的技能方向。

实践上，Java 工程师、PHP 工程师、后端开发工程师等均可称为软件工程师。有很多 Title 为 “软件工程师” 的简历，需求依据职位或作业描绘进一步判别详细类别。

例如对简历进行查找时，输入 “Python 工程师”，简历称号中含 Python 的简历或许较少，导致查找成果数量丰厚度不高。但假如经过模型能够判别简历称号为软件工程的详细人物，增强简历的区别度，则可在软件工程师的简历中挑选归于 Python 工程师的简历，进一步进步查找的丰厚度。

三、经过机器学习办法进步人物辨认的精确度

1、树立合理的职位了解

增强简历的区别度，能够了解为 “怎么更精确地了解职位，包括职位的不同表达办法，以及与该职位相关的技能模型”——这件事能够依据一张专业词表完结。

例如咱们界说一个简略的词表——“软件工程师” 为一级类别，其部属二级技能类别分为 Java、C++、PHP、.NET、Python、Delphi、Perl 等。这张词表界说了清晰的职位 / 技能联系，当词表在 “阅读” 一份名为 “软件工程师” 的简历时，它实践阅读的是上述技能。

聘宝的常识图谱更为杂乱，除技能分支外，还包括职业、公司等很多维度。

<图 2 - 聘宝的职位技能常识图谱节选>

2、怎么进行高效的人物分类辨认核算

深度学习办法近期在文本处理范畴大受欢迎，但需求留意的是它们的练习以及测验进程非常缓慢，以至于工程运用时门槛颇高。

在进行了一系列的技能计划调研与比较后，咱们测验比照剖析了三种机器学习的文本分类算法： TextGrocery，fastText，Naive Bayes。

TextGrocery—是一个依据 LibShortText 和结巴分词的短文本分类东西，依据线性核 SVM 分类器，运用二元分词(Bigram)，不去中止词，不做词性过滤一同支撑中文和英文语料，让文本分类变得简略。

fastText—由 FAIR(Facebook AI)开发的一款快速文本分类器，供给简略而高效的文本分类和表征学习的办法，出自 Word2Vec 作者 Mikolov 的论文《Bag of Tricks for Efficient Text Classification》

fastText 合适大型数据 + 高效的练习速度，能够练习模型 “在运用规范多核 CPU 的情况下 10 分钟内处理超越 10 亿个词汇”，与深度模型比照，fastText 能将练习时刻由数天缩短到几秒钟。FastText 的功能要比时下盛行的 word2vec 东西显着好上不少，也比其他现在最先进的词态词汇表征要好。

<图 3-fastText 分类器模型示意图>

<图 4-fastText 模型架构>

Naive Bayes——由贝叶斯定理延伸而来的概率模型，它依据每个特征的概率确认一个目标归于某一类其他概率。该办法假定一切特征需求彼此独立，即任一特征的值和其他特征的值没有相关联系。

在自然言语处理范畴，处理的的数据能够看做是在文本文档中标示数据，这些数据能够作为练习数据集来运用机器学习算法进行练习。

在练习样本时，构建能够表征文本的特征向量 (词汇表)，并依据这个特征向量将练习集表征出来，核算各个类其他频率作为该类的先验概率，和在每个类别条件下各个特征特色的条件概率，分类时，依据贝叶斯公式核算待分类语句在每一类其他后验概率，取最大值作为其分类。

<图 5-Naïve Bayes 模型架构>

四、一个简略的分类辨认试验

为更好地剖析不同技能手段在增强简历区别度上的作用，咱们进行了一项简略的比较试验，来展示算法是怎么把低区别度的简历如 “软件工程师” 进行详细的技能方向分类的。

1、试验数据集的预备：

选取 680731 份依据职位称号判别归于二级类其他工程师简历数据，随机抽样取 80% 的数据做练习数据，剩下 20% 份作测验数据。

<图 6 - 试验数据集的散布>

2、试验作用体现：

经过试验咱们发现，经过机器学习办法，咱们能够快速辨认低区别度简历并进行精确的分类，然后能够极大的下降人工查找与阅读的时刻。

<图 7 - 各个类别猜测精确率的散布>

比照上面模型成果， fastText 模型依据词袋的针对英文的文本分类办法，组成英文语句的单词是有距离的;而中文文本是接连的，因而对中文文本，则需分词去标点转化为模型所需求的数据格式，但分类作用一般，尤其是类别间区别度不是很大的情况下。别的参数调优对模型成果影响较大，但模型优势在于练习时刻很短。所以 fastText 模型更合适做类别区别度更大且考究分类功率的运用场景，比方将一则新闻主动划归到财经、军事、社会、文娱等板块。

TextGrocery 模型是专门针对短文本的分类模型，直接输入文本，无需做特征向量化的预处理，不去中止词，不做词性过滤，高雅的 API 接口，但模型精确率和模型练习时刻在此人物猜测模型中不是太杰出。

Naive Bayes 为传统的文本分类模型，特征向量化的预处理相对繁琐、练习时刻较长，但在分类类别多文本区别度不大的情况下，分类作用比较其他两种算法更为优异。这个试验成果旁边面阐明，在产品完成时勿过度寻求 “时尚” 的技能。对某一项特定事务来说，有助于事务完成更优作用的技能便是最好的技能。

聘宝在面临低区别度简历时的人物辨认算法，吸收结合了上述各类算法的特色，面临不同场景条件时调配运用，完成了更优的分类作用，在 TMT 职业首要职位类型上的辨认精确率高于 75%。

以 “软件工程师” 为比如，在聘宝中输入归于软件工程师的职位描绘，猜测出或许的人物，作用如下图：

<图 8 - 聘宝人物辨认作用示例>

关于其他职业低区别度的简历，相同能够练习出对应的模型。假如单个职业猜测类别不必过细的话，能够将很多职业数据混合一同练习模型进行猜测。

依据该试验的样本数据，假定简历库中有 1 万份名为 “软件工程师” 的简历。一位 HR 在查找 “Android 工程师” 时仅重视简历称号为 “Android 工程师” 的简历，她将遗失 912 份有或许匹配的简历——这些简历均被冠以 “软件工程师” 的职位称号;假如这位 HR 乐意花时刻自始至终通读每一份 “软件工程师” 的简历，将其间真实从事 Android 研制作业的简历挑选出来，那么她需求多阅读 9088 份无效的软件工程师简历，假定阅读一份简历需求 15 秒，这项作业将占有她 38 小时。

人物辨认除了在简历检索方面的运用，在其他方面也有广泛的运用空间。如薪资猜测，依据作业描绘猜测人物作为特征变量，将有助于进步猜测薪资的精确性。

又例如简历解析，将简历详情页的各个区块作为文本，猜测各区块所属的信息类型(如作业经验、教育阅历等)后再运用对应的解析程序对区块进行解析，将大大进步简历详情页面的解析功率。

咱们一直信任技能能够进步作业功率，也正因而咱们在简历的剖析与匹配作业上继续深耕三年，信任在机器学习技能的协助下，HR 的招聘作业将变得愈加省时高效。

参考文献:

[1] 超快的 fastText[EB/OL]. 超快的 fastText, 2017-04-10/2017-04-24.

[2] Library for fast text representation and classification.[EB/OL].facebookresearch/fastText, 2017-04-10/2017-04-24.

[3] TEXTGROCERY，更好用的文本分类 PYTHON 库 [EB/OL]. 岭南六少 - 一朵在 LAMP 架构下挣扎的云, 2017-04-10/2017-04-24.

[4] LibShortText 扼要入门 [EB/OL].http://guoze.me/2014/09/25/libshorttext-introduction/, 2017-04-10/2017-04-24.

[5] NLP 系列 (2)_用 Naive Bayes 进行文本分类 (上)[EB/OL].NLP 系列 (2)_用朴素贝叶斯进行文本分类 (上) - 龙心尘 - 博客频道 - CSDN.NET, 2017-04-10/2017-04-24.

[6] 从 Naive Bayes 到 N-gram 言语模型 [EB/OL]. NLP 系列 (5)_从朴素贝叶斯到 N-gram 言语模型 - 龙心尘 - 博客频道 - CSDN.NET, 2017-04-10/2017-04-24.

[7] Bag of Tricks for Efficient Text Classification[EB/OL]. Bag of Tricks for Efficient Text Classification, 2017-04-10/2017-04-24.