0. 引言

弱大数定律(The Weak Law of Larger Numbers,WLLN)与中心极限定理(The Central Limit Theorem,CLT)是推导估计量渐近分布的两个一般性定理。前者证明了样本均值依概率收敛于总体均值(期望);后者则证明了标准化后的样本均值近似服从正态分布。由于计量研究中许多估计量都可以写为样本均值的函数,所以更一般化地表述是:WLLN证明了样本矩依概率收敛于总体矩,也就是说,只要样本量足够大,样本矩趋向于总体矩的概率可以足够得高;CLT则证明了样本矩是渐近正态分布的,而渐近协方差矩阵由相应的随机变量方差决定,换言之,只要样本量足够大,经过标准化的样本矩近似服从正态分布。不过,尽管WLLN和CLT为我们推导估计量的渐近性质提供了有力的工具,但必须认识到的是,WLLN和CLT并不能保证实际研究中我们根据一次抽样计算的估计值便是总体的真实参数。下面,分别对WLLN和CLT作一介绍。

1. 弱大数定律

若随机变量序列\(X_n=\{X_1,X_2,……,X_n\}\)为来自均值\(\mu\),方差\(0<\sigma^2<\infty\)总体的一个随机抽样。当\(n\longrightarrow\infty\)时,

\(\bar{X}_n\stackrel{p}\longrightarrow E(X)\)

WLLN的证明方式不只一种,本文给出利用切比雪夫不等式(Chebyshev's Inequality,CI)的证明过程。

1.1 切比雪夫不等式

设随机变量\(X\)的期望与方差存在,则对于任意常数\(k>0\),不等式

\(P(|[X-E(X)]/\sigma|\geq k)\leq\frac{1}{k^2}\)

成立。

 

现证明对于样本均值,不等式

\(P(|\bar{X}-E(X)|\geq k)\leq\frac{Var(X)}{k^2n}\)

成立。

 

将CI改写为\(P(|X-E(X)|\geq\sigma k)\leq\frac{1}{k^2}\),且令\(k'=\frac{k}{\sigma}\),则有:

\(\begin{aligned}P(|\bar{X}-E(X)|\geq k)&=P(|\bar{X}-E(X)|\geq k'\sigma)\\&\leq\frac{1}{k'^2}\\&\leq\frac{\sigma^2}{k^2}\\&\leq\frac{Var(\bar{X})}{k^2}\\&\leq\frac{Var(X)}{k^2n}\end{aligned}\)

得证。注意最后一个不等号利用了样本均值的抽样方差等于随机变量的方差除以样本量。

1.2 WLLN的证明

由上述结论和概率的定义可知:

\(0\leq P(|\bar{X}_n-E(X)|\geq k)\leq\frac{Var(X)}{k^2n}\)

\(n\longrightarrow\infty\)时,不等式最右边收敛于0,因此

\(\lim_{n\to\infty}P(|\bar{X}_n-E(X)|\geq k)=0\)

得证。

2. 中心极限定理

CLT与WLLN的共同点是二者均建立在样本量无限增大时随机变量的渐近性质上。不同之处在于,通过CLT我们可以获取关于估计量分布的信息。事实上,CLT仅仅是一个泛称,因为统计学中存在着不同“版本”的CLT。例如,de Moivre-Laplace CLT(关于二项分布随机变量的正态近似)、Lyapunov CLT(不作同分布假定)以及推广到多维随机变量(随机向量)情形下的CLT等。本文仅讨论实证计量中出镜率最高的Lindeberg-Levy CLT(便宜起见,后文简称CLT)。

 

若随机变量序列\(X_n=\{X_1,X_2,……,X_n\}\)为来自均值\(\mu\),方差\(0<\sigma^2<\infty\)【注:柯西分布骂骂咧咧地走了出去(笑)】总体的一个随机抽样。当\(n\longrightarrow\infty\)时,

\(\frac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma}\stackrel{d}\longrightarrow N(0,1)\)

为证明上述CLT,需要引入特征函数(Characteristic Function)作为工具。本文在此仅对几个证明CLT需要用到的定理作一简要说明,因为相关证明涉及高深的测度论知识,而这超出了笔者的能力范围。

2.1 特征函数

随机变量\(X\)的特征函数定义为:

\(\begin{aligned}\varphi_X(t)&=E(e^{itX})\\&=\int{e^{itX}}dF_X(X)\end{aligned}\)

根据定义,特征函数即随机变量概率函数的傅里叶变换。与之相似的是矩母函数(Moment Generating Function),它是随机变量概率函数的拉普拉斯变换。二者的关键区别在于,矩母函数对于某些分布来说是不存在的,例如柯西分布和对数正态分布,而特征函数对于任何分布均存在。

 

定理一:若两个随机变量\(X\)\(Y\)的特征函数分别为\(\varphi_X(t)\)\(\varphi_Y(t)\)\(\varphi_X(t)=\varphi_Y(t)\)意味着\(F_X(X)=F_Y(Y)\),也就是说,随机变量的分布由特征函数唯一确定。

 

定理二:设随机变量序列\(X_n=\{X_1,X_2,……,X_n\}\)的累积分布函数和特征函数分别为\(F_n(X)\)\(\varphi_n(t)\),随机变量\(X\)的累积分布函数和特征函数分别为\(F_X(X)\)\(\varphi_X(t)\)。当\(n\longrightarrow\infty\)时,若\(\varphi_n(t)\longrightarrow\varphi_X(t)\),则\(F_n(X)\longrightarrow F_X(X)\)。该定理意味着特征函数的收敛等价于依分布收敛。

 

定理三:定义随机变量\(Y_n=\sum_{i=1}^nX_i\)\(X_i\)为独立同分布,则

\(\varphi_{Y_n}(t)=[\varphi_X(t)]^n\)

2.2 CLT的证明

首先定义标准化随机变量:

\(Y_i=\frac{X_i-\mu}{\sigma}\quad i=1,...,n\)

则标准化样本均值为:

\(\begin{aligned}Z_n&=\frac{\bar{X}_n-\mu}{\sigma/\sqrt{n}}\\&=\sqrt{n}\frac{\bar{X}_n-\mu}{\sigma}\\&=\sqrt{n}\left(\frac{1}{n}\sum_{i=1}^n\frac{X_i-\mu}{\sigma}\right)\\&=\sqrt{n}\bar{Y}_n\\&=\frac{1}{\sqrt{n}}\sum_{i=1}^nY_i\end{aligned}\)

现在,根据定理一和定理二,证明当\(n\longrightarrow\infty\)\(Z_n\)依分布收敛于标准正态分布,等价于证明\(Z_n\)的特征函数收敛于标准正态分布的特征函数,即

\(\varphi_{Z_n}(t)\longrightarrow e^{-\frac{t^2}{2}}\)

 

因此

\(\begin{aligned}\varphi_{Z_n}(t)&=[E(e^{itY/\sqrt{n}})]^n\\&=[\varphi_Y(t/\sqrt{n})]^n\\&=\left(1-\frac{t^2}{2n}+o(\frac{t^2}{n})\right)^n\\&\longrightarrow e^{-\frac{t^2}{2}}\end{aligned}\)

得证。注意第一个等号利用了定理三,第三个等号将\(e^{itY/\sqrt{n}}\)泰勒展开的同时利用了期望算子的线性性,最后一步利用了极限\(\left(1+\frac{a}{n}\right)^n\longrightarrow e^a\)

3. 一点想法

回忆CLM中关于随机误差项服从正态分布的假定:随机误差项被视作若干独立地影响被解释变量的不可观测因素之和,所以随机误差项是渐近正态的。这一论证在一定程度上或许有其合理性,但是问题在于,我们对于不可观测因素的独立性和其以线性可加的形式影响被解释变量的假设大概率不符合复杂的现实场景。同时,样本量的大小也难有一个统一的标准【注:样本量大于30的经验准则应该被抛弃】。因此,CLT仅仅为我们提供了一种理论上的依据,现实与理想之间的鸿沟总是研究者不得不面对的问题。

 

参考文献

[1]程士宏. 测度论与概率论基础[M]. 北京: 北京大学出版社, 2004.

[2]Aronow P M, Miller B T. Foundations of agnostic statistics[M]. Cambridge University Press, 2019.

 

[创作不易,转载请注明出处]


0 Comments Latest Comment

No Comments for Now