“固定效应(Fixed Effects)”和“随机效应(Random Effects)”,一对熟悉又陌生的词汇。一方面,我们经常在各种统计方法中见到它们的身影;另一方面,它们在不同的方法语境中所指代的含义却又不尽相同。一种理解二者之间共性与差异的思路是,将它们置于多水平模型(Multilevel Model,MLM)的框架下加以考察。举例而言,仅考虑单因素的情况,在方差分析(ANOVA)的语境下,固定效应模型指模型的截距项被设定为总体参数,作为模型中固定不变的部分,反映了不同组之间的结构性差异。随机效应模型则指模型的截距项被设定为随机变量,在不同组之间存在变异。由于方差是衡量随机变量变异程度的特征量,所以ANOVA中的随机效应模型也被称作“方差成分模型(Variance Component Model)”。将二者置于MLM的框架下,固定效应模型实质上是一般线性模型(General Linear Model,GLM),或者通俗但不严谨地理解为仅包含一个水平的MLM:

\(y_{ij}=\gamma+\mu_j+\epsilon_{ij}\)

\(\epsilon_{ij}\sim N(0,\sigma^2)\)\(Var(y_{ij})=\sigma^2\)。此时研究者考察的是不同组之间的平均水平是否有差异。随机效应模型则是MLM中的空模型(Null Model):

\(y_{ij}=\gamma+\mu_j+\epsilon_{ij}\)

\(\epsilon_{ij}\sim N(0,\sigma_{\epsilon}^2)\)\(\mu_{j}\sim N(0,\sigma_{\mu}^2)\)\(Var(y_{ij})=\sigma_{\epsilon}^2+\sigma_{\mu}^2\)。此时研究者考察的是不同组之间的变异程度是否有差异。

 

现在,我们来讨论面板数据模型中的固定效应与随机效应。考虑如下仅包含个体效应的模型:

\(y_{it}=x_{it}\beta+\mu_i+\epsilon_{it}\)

其中下标\(i\)标示个体维度,下标\(t\)标示时间维度,\(\mu_i\)为不可观测的个体异质性,\(\epsilon_{it}\)为随机误差项【注:在面板数据模型的语境中,有时也被称作特异误差(Idiosyncratic Error)】。基于上文的分析,固定效应将\(\mu_i\)视作待估参数,而随机效应将\(\mu_i\)视作随机变量。如果\(\mu_i\)被视为待估参数,则相当于为不同的个体\(i\)在所有时期\(t\)上分别估计一个截距项。如果\(\mu_i\)被视为随机变量,则模型中的随机部分变为\(\mu_i+\epsilon_{it}\),此时为获得关于\(\beta\)的一致估计,必须额外满足零条件均值假设\(E(\mu_i|x_{it})=0\)【注:如果模型包含截距项,即使\(\mu_i\)的期望值非零也没有关系】,在稍弱一些的意义上也可表述为\(\mu_i\)与解释变量\(x_{it}\)不相关。相反,固定效应则不需要此类假定。尽管将\(\mu_i\)设定为待估参数或者随机变量为我们理解面板数据模型中的固定效应和随机效应提供了一种视角,但是问题的关键——或者说,究竟该将\(\mu_i\)设定为待估参数亦或随机变量的判断——是\(\mu_i\)与模型中解释变量是否相关,而不是词汇本身。原因在于,从技术上讲,始终应将\(\mu_i\)连同\(y_{it}\)\(x_{it}\)视作总体的随机抽样,或者退一步,将\(\mu_i\)视作退化的随机变量。当然,正如Wooldrige(2010)所批评的,“关于将不可观测效应作为待估参数或者随机变量的讨论从应用上来说是一个判断性错误”,然而,固定效应和随机效应的表述“是如此的根深蒂固,以至于试图改变它们是毫无意义的”。

 

既然选择固定效应或随机效应的根本在于\(\mu_i\)是否与模型中的解释变量相关,那末如何检验这种相关性就是一个值得考虑的问题。其中最常用的,也是现行教科书中普遍介绍的方法是Hausman检验。由于Hausman检验实在过于著名,所以没有必要再对其原理加以说明。本文意在介绍另一种由Mundlak于1978年提出的检验方法——Mundlak Approach。该方法的原理非常直觉,如果\(\mu_i\)\(x_{it}\)不相关,就意味着\(x_{it}\)\(\mu_i\)没有解释力度。我们可以通过估计给定\(x_{it}\)\(\mu_i\)的条件期望来加以检验:

\(\mu_i=\bar{x}_i\theta+v_i\)

\(E(\mu_i|x_i)=\bar{x}_i\theta\)

其中,\(\bar{x}_i\)是在每个截面上解释变量的均值,\(v_i\)是不随时间而变的随机误差项且假定与所有解释变量不相关。将之代入上文的个体效应模型,得到:

\(y_{it}=x_{it}\beta+\bar{x}_i\theta+v_i+\epsilon_{it}\)

\(E(y_{it}|x_{it})=x_{it}\beta+\bar{x}_i\theta\)

于是,检验\(H_0:\theta=0\),如果拒绝原假设则说明\(\mu_i\)\(x_{it}\)相关,应当采用固定效应模型估计。

 

下面附上Mundlak Approach的Stata代码,其中使用的数据来自Baltagi(2005)。

use munnell.dta, clear
xtset state year

/* generate panel-level mean of x_it */

global X "lnk1 lnk2 lnlabor unemp"
foreach var of varlist $X {
	bysort state: egen mean_`var'=mean(`var')
}

/* Compare two tests. */

qui xtreg lny $X mean_*, vce(robust)
test mean_lnk1 mean_lnk2 mean_lnlabor mean_unemp

qui xtreg lny $X, vce(robust)
xtoverid

 

参考文献

[1]Balgati B H. Econometric analysis of panel data (3e.)[M]. Wiley, 2005.

[2]Mundlak Y. On the pooling of time series and cross-section data[J]. Econometrica, 1978, 46: 69-85.

[3]Wooldridge J M. Econometric analysis of cross selection and panel data (2e.)[M]. The MIT Press, 2010.

 

[创作不易,转载请注明出处]


0 Comments Latest Comment

No Comments for Now