![统计学习理论与方法:R语言版](https://wfqqreader-1252317822.image.myqcloud.com/cover/449/34061449/b_34061449.jpg)
1.5 经验分布函数
设(X1,X2,…,Xn)是总体X的一个样本。如果是关于样本(X1,X2,…,Xn)的函数并满足如下条件:它总是取样本观察值(x1,x2,…,xn)按从小到大排序后第i个值为自己的观测值。那么就称
,
,…
为顺序统计量。顺序统计量可以简记为
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P36_11574.jpg?sign=1738783050-8XCEjEsyJ42zSbTZz7KdYcoO67zgErIL-0-ad6db740905df81e442c440aaaa6a70f)
特别地
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P36_32291.jpg?sign=1738783050-bw8KmlENPETHAGPxdmGqafLA3ug6C44Y-0-f66475df39727e65ffe9be61dc380819)
称和
分别为样本的最小值和最大值。并称
为样本的极差。
此外,还可以定义
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P36_32290.jpg?sign=1738783050-TyQtKt4MkfTJ45k1GA0QGlCZ9qzLUjeH-0-63d9be5898ebd08f07377463df417cbc)
为样本的中位数。
基于顺序统计量,我们就可以来讨论经验分布函数(Empirical Distribution Functions,EDF)当概念了。设x1,x2,…,xn是总体X的一组容量为n的样本观测值,将它们按从小到大的顺序重新排列为,
,…
,对于任意实数x,定义函数
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P37_32322.jpg?sign=1738783050-W7oFEyh2gDz6ECdLtT8pcI2C0x2hBTCi-0-2964c7a16bfc4cd5063da7ab251b1492)
则称Fn(x)为总体X的经验分布函数。它还可以简记为,其中∗{x1,x2,…,xn}表示x1,x2,…,xn中不大于x的个数。
另外一种常见的表示形式为
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P37_32324.jpg?sign=1738783050-NAI57ntVqWIte6hZP8ZeAVEdh8kXSveM-0-00d43d7cff5e24f9a57235556f59731b)
其中,I是指示函数(indicator function),即
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P37_32326.jpg?sign=1738783050-vk2HQrYIHPcbcgBMdUNClvYhkupc2bTO-0-7d627753160c4a534733aca315d160cd)
因此,求经验分布函数Fn(x)在一点x处的值,只要求出随机变量X的n个观测值x1,x2,…,xn中小于或等于x的个数,再除以观测次数n即可。由此可见,Fn(x)就是在n次重复独立实验中事件{X≤x}出现的频率。
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P37_11627.jpg?sign=1738783050-nBAAhXrTa0Rx99gbzPZxbtmqvPCFFd0t-0-5c487f50a572aba798b8de8579ff3699)
图1-9 经验分布函数的图形
经验分布函数Fn(x)的图形(如图1-9所示)是一条呈跳跃上升的阶梯形曲线。如果样本观测值x1,x2,…,xn中没有重复的数值,则每一跳跃为1/n,若有重复l次的值,则按1/n的l倍跳跃上升。图中圆滑曲线是总体X的理论分布函数F(x)的图形。若把经验分布函数的图形连成折线,那么它实际就是累积频率直方图的上边。这和概率分布函数的性质是一致的。
根据大数定理可知,当试验次数增大时,事件的频率稳定于概率。那么,当试验次数增大时,表示事件{X≤x}出现频率的经验分布函数是否接近于事件{X≤x}出现概率的总体分布函数呢?这个问题可由格利文科定理(Glivenko Theorem)来回答。
格利文科定理:设总体X的分布函数为F(x),经验分布函数为Fn(x),则有
![](https://epubservercos.yuewen.com/0D99D6/18225431901802606/epubprivate/OEBPS/Images/Figure-P37_32328.jpg?sign=1738783050-bujiJZabEPkdBhoijpCc18i4ArmPpLS6-0-3daeac5dc121b604b7803e719db319bf)
该定理揭示了总体X的理论分布函数与经验分布函数之间的内在联系。它指出当样本容量足够大时,从样本算得的经验分布函数Fn(x)与总体分布函数F(x)相差的最大值也可以足够小,这就是用样本来推断总体的数学依据。