本文分析利用IBM离职员工数据进行汾析在对离职率的影响因素进行观察的基础至上,建立模型并预测哪些员工更易离职
一般而言,数据分析分为三个步骤:数据收集与清洗、探索性分析和建模预测本文的数据集是IBM用于研究员工预测的模拟数据,数据十分完整无需清洗。因此本文主要分为三个部分:
- 对于一些重要的变量进行探索性分析;
- 分析导致员工离职的因素,并挖掘相关因素的影响程度;
- 通过算法构建模型预测哪些员工有可能离职。
通过对IBM离职员工数据实践本文希望发掘出影响员工流失的因素,并对利用R语言进行数据分析过程进行复习深化对数据分析工莋意义的理解。
IBM离职员工数据集共有35个变量1470个观测个案。部分需要重点关注的变量如下:
上述变量可以分为三个部分:
-
基本的身份信息變量:性别、年龄、学历、任职过的企业数量、婚姻状况;
-
员工公司身份变量:工龄、在公司工作的时间、职位、职级、
-
薪酬与福利变量:月薪、工作投入、绩效评分、认购优先股的级别、涨薪比列、上年度培训次数、距离上次升职的时间间隔
-
生活质量相关变量:工作环境滿意度、工作满意度、关系满意度、工作与生活平衡情况、上班距离、是否加班、出差情况