实证研究中,我们经常需要纳入解释变量的高次项【注:主要是二次项和交乘项】来捕捉潜在的非线性效应。然而,纳入解释变量的高次项将增大模型的多重共线性(Multicollinearity),以致参数估计值不稳定。常见的解决方式(如果你确实想要解决它的话)是对高次项进行总平减,而且一般来说,该方法已经足以达到目的。不过,总平减后的高次项依然或多或少与解释变量存在着相关性。鉴于此,本文介绍一种由Lance(1988)提出的更加有效的方法——残差中心化(Residual Centering)。残差中心化是一种两步估计法:首先,将高次项对解释变量回归获得残差;然后,将残差作为新的解释变量(代表高次项)纳入模型。基于OLS解释变量与残差正交的性质,所以第二步回归中的高次项残差与解释变量不相关。

 

下面通过Stata自带的auto.dta数据集对残差中心方法加以演示。第一个案例我们设定一个包含二次项的模型:

\(price_i=\beta_0+\beta_1weight_i+\beta_2weight_i^2+\epsilon_i\)

如下图所示,此时模型的方差膨胀因子高达58.95,远超过10的Rule of thumb。

RC1

残差中心化后的方差膨胀因子则表明一次项与二次项之间完全正交:

RC2

比较系数估计值可以看到,存在多重共线性的情况下,变量系数有较大改变,而Model3(残差中心化)的模型系数与Model1一致,同时残差中心化也未改变模型的可决系数(与Model2一致):

RC3-1

 

第二个案例我们设定一个包含交乘项的模型:

\(price_i=\beta_0+\beta_1weight_i+\beta_2length_i+\beta_3weight_i*length_i+\epsilon_i\)

如下图所示,直接估计该模型时交乘项的方差膨胀因子高达155.59,意味着模型存在严重的多重共线性。

RC4

残差中心化后交乘项的方差膨胀因子则显著地降低:

RC5

同样比较不同模型的系数估计值,结论与第一个案例一致:

RC6-1

 

上述案例的Stata代码如下:

sysuse auto, clear

/* Powerd term. */

qui reg price weight, r
eststo m1
gen weight2 = weight^2
qui reg price weight weight2, r
eststo m2
estat vif

qui reg weight2 weight
predict weight_res, res
qui reg price weight weight_res, r
eststo m3
estat vif

esttab m1 m2 m3, ///
	b(%8.3f) se(%8.3f) stats(r2_a N) star drop(_cons) ///
	nonumber mtitle("Model1" "Model2" "Model3")

/* Interacted term. */

qui reg price weight length, r
eststo m4
gen interact = weight * length
qui reg price weight length interact, r
eststo m5
estat vif

qui reg interact weight length
predict interact_res, res
qui reg price weight length interact_res, r
eststo m6
estat vif

esttab m4 m5 m6, ///
	b(%8.3f) se(%8.3f) stats(r2_a N) star drop(_cons) ///
	nonumber mtitle("Model4" "Model5" "Model6")

 

最后,顺便一提,Little等人(2006)扩展了残差中心化的方法,将之用于结构方程模型的潜变量调节效应的分析中。感兴趣的朋友可以自行了解学习。

 

参考文献

[1]Lance C E. Residual centering, exploratory and confirmatory moderator analysis, and decomposition of effects in path models containing interactions[J]. Applied Psychological Measurement, 1988, 12(2): 163-175.

[2]Little T D, Bovaird J A, Widaman K F. On the merits of orthogonalizing powered and product terms: Implications for modeling interactions among latent variables[J]. Structural Equation Modeling: A Multidisciplinary Journal, 2006, 13(4): 497-519.

 

[创作不易,转载请注明出处]


0 Comments Latest Comment

No Comments for Now