
4.3.3 探索分析的结果分析
从表4-4可以看出女员工共216个样本,男员工共258个样本,没有缺失值。
表4-4 个案处理摘要

从表4-5可以看出女员工的平均薪水为26031.92,标准误为514.258,平均值的95%置信区间为(25018.29,27045.55),5%截尾平均值是排除掉数据首尾两端5%的变量值后得出的平均值,本例为25248.30,中位数为24300.00,标准差为7558.021,最小值为15750,最大值为58125,范围为42375,四分位距是25%的百分位数与75%的百分位数之间的距离,本例为7013,偏度为1.863,峰度为4.641,男员工的描述统计量同理。
表4-5 描述性

从表4-6可以看出M-估计量中休伯M估计量、Tukey双权估计量、汉佩尔M估计量和安德鲁波估计量,4个估计量的区别就是使用的权重不同,发现女员工和男员工的4个M估计量虽然离中位数较近,但是离平均值较远,说明数据中应该有异常值。
表4-6 M估计量

a..加权常量为 1.339。
b.加权常量为 4.685。
c.加权常量为 1.700、3.400 和8.500。
d.加权常量为 1.340*pi。
百分位数就是将数值分成两部分,例如百分位数25代表的值就表示有25%的值比该值小,有75%的值比该值大,从表4-7可以得出本例的百分位数。
表4-7 百分位数(P)

从表4-8可以看出分组后女员工和男员工薪水的5个极大值和5个极小值。
表4-8 极值

从表4-9可以看出柯尔莫戈洛夫-斯米诺夫(Kolmogorov-Smirnov)方法和夏皮洛-威尔克(Shapiro-Wilk)方法检验的结果,显著性均小于0.05,说明女员工和男员工的薪水分布均不符合正态分布的假设。其中Shapiro-Wilk方法只有在对样本量小于50时比较精确。
表4-9 正态性检验

a.里利氏显著性修正
从表4-10可以看出男女员工间薪水不具有齐次性,因为显著性均小于0.05。
表4-10 方差齐性的检验

从图4-16可以得出女员工和男员工薪水的分布均呈正偏态。

图4-16 男女员工薪水分布的直方图
图4-17是茎叶图,图中“Frequency”表示的是变量值的频次,“Stem”表示的是变量值的整数部分,“Leaf”表示的是变量值的小数部分。变量值的具体计算方法是变量值=(茎+叶)*茎宽,如女员工薪水茎叶图第一行的变量值为15000=(1+0.5)×10000,第7行叶部分第13个数字为7,则变量值为27000=(2+0.7)×10000,本例茎宽(Stem Width)为10000。

图4-17 男女员工薪水的茎叶图
图4-18中所示的两种正态图,一种是标准的正态概率分布图,一种是离散的正态概率分布图。
标准的正态概率分布图是使用变量的实际观测值作为横坐标,变量的期望值为纵坐标,变量值为落点。图中的斜线表示正态分布的标准线,点表示变量值,变量值越接近于斜线,则变量值的分布越接近正态分布,本例中男女员工的薪水分布不符合正态分布。
离散的正态概率分布图是使用变量的实际观测值作为横坐标,以实际观测值与期望值的差作为纵坐标,如果数据符合正态分布,则图中的点应该分布于图中标准线的附近。在本例中可以男女员工的薪水分布不符合正态分布。

图4-18 男女员工薪水的正态图

图4-18 男女员工薪水的正态图(续)
图4-19所示的为箱图,箱子的上边线表示第75百分位数,下边线表示第25百分位数,中间的线表示中位数,箱子上下的两条细横线表示的是除离群值和极值的最大值和最小值。
离群值是指离箱子的上下边线的距离为箱子高度的1.5倍至3倍的变量值,本图中用“Ο”表示。极值是指离箱子的上下边线的距离为箱子高度的3倍以上的变量值,本图中用“☆”表示。
从图4-19可以看出男女员工的薪水都有一些离群值和极值存在,表明有员工的薪水明显高于普通员工。

图4-19 箱图