计量经济学侦探的反Stata回归分析例题库:揭露数据背后的陷阱
计量经济学侦探的反Stata回归分析例题库:揭露数据背后的陷阱
你以为你掌握了 Stata? 你以为 regress y x1 x2 x3 就能解决一切问题? 哼,天真! 我,作为一名对计量经济学模型缺陷有着病态执着的学院派侦探,将带你深入数据泥潭,揭露那些被 Stata 轻易掩盖的真相。准备好迎接挑战吧!
例题一:房价与犯罪率——一个被遗漏的社区
背景设定(The Setup)
研究问题:探讨城市中房价与犯罪率的关系。我们假设,犯罪率高的地区,房价会相对较低。为了验证这一假设,我们收集了某城市 100 个社区的数据,包括平均房价(单位:万元/平方米)、犯罪率(每千人犯罪案件数)、以及一些其他可能影响房价的因素,例如学校质量评分(1-10 分)、距离市中心的距离(公里)。
数据集(部分):
| 社区ID | 房价 | 犯罪率 | 学校质量 | 距离市中心 |
|---|---|---|---|---|
| 1 | 5.2 | 3.1 | 7 | 2.5 |
| 2 | 4.8 | 4.5 | 6 | 3.0 |
| 3 | 6.1 | 2.0 | 8 | 1.0 |
| ... | ... | ... | ... | ... |
| 100 | 3.9 | 5.2 | 5 | 4.0 |
研究目的:建立回归模型,预测房价,并解释犯罪率的影响。
Stata 代码:
regress 房价 犯罪率 学校质量 距离市中心
“回归结果”(The Illusion)
| Source | SS | df | MS | Number of obs = 100 |
|---|---|---|---|---|
| Model | 245.678 | 3 | 81.893 | F(3, 96) = 42.56 |
| Residual | 184.322 | 96 | 1.920 | Prob > F = 0.0000 |
| Total | 430.000 | 99 | 4.343 | R-squared = 0.5713 |
| Adj R-squared = 0.5579 | ||||
| Root MSE = 1.386 |
| 房价 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 犯罪率 | -0.523 | 0.125 | -4.18 | 0.000 | | -0.771 -0.275 |
| 学校质量 | 0.456 | 0.089 | 5.12 | 0.000 | | 0.279 0.633 |
| 距离市中心 | -0.211 | 0.072 | -2.93 | 0.004 | | -0.354 -0.068 |
| _cons | 4.987 | 0.451 | 11.06 | 0.000 | | 4.092 5.882 |
解读:犯罪率在 0.000 的显著性水平上显著,系数为负,说明犯罪率越高,房价越低。学校质量和距离市中心也显著影响房价,符合预期。
“真相大白”(The Revelation)
等等! 别被这些数字迷惑了! 你真的相信这个模型能解释房价的决定因素? 你有没有想过,这个城市可能存在一些特殊的社区,例如富人区,这些区域的犯罪率极低,但房价却异常高昂? 或者,一些老旧社区,犯罪率较高,但房价却因为历史原因而居高不下?
你忽略了社区异质性! 仅仅用这几个简单的变量,就想解释复杂的房价问题,简直是痴人说梦!更可笑的是,你竟然没有进行任何残差分析,看看是否存在异方差问题。 你的模型很可能存在严重的样本选择偏差!
更深入的分析方法:考虑使用分位数回归,或者引入社区固定效应,以控制不可观测的社区特征。也许,你还需要考虑使用空间计量模型,因为房价往往存在空间相关性。
参考资料:
* Angrist, J. D., & Pischke, J. S. (2008). Mostly harmless econometrics: An empiricist's companion. Princeton university press.
* Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. MIT press.
“警示语”(The Warning)
Stata 只是一个工具,不能代替思考。 你需要的是批判性思维,而不是盲目地运行回归!
例题二:广告支出与销售额——一场数据挖掘的狂欢
背景设定(The Setup)
研究问题:探讨广告支出对销售额的影响。一家公司想了解在不同媒体渠道(电视、报纸、网络)的广告投入,对销售额的影响程度。他们收集了过去 200 天的数据,包括每日的销售额(单位:万元)、电视广告支出(万元)、报纸广告支出(万元)、网络广告支出(万元)。
数据集(部分):
| 日期 | 销售额 | 电视广告 | 报纸广告 | 网络广告 |
|---|---|---|---|---|
| 2026-01-01 | 15.2 | 3.1 | 1.5 | 2.0 |
| 2026-01-02 | 14.8 | 2.5 | 1.2 | 2.5 |
| 2026-01-03 | 16.1 | 3.5 | 1.8 | 2.2 |
| ... | ... | ... | ... | ... |
| 2026-07-19 | 13.9 | 2.8 | 1.0 | 1.8 |
研究目的:建立回归模型,预测销售额,并解释不同广告渠道的影响。
Stata 代码:
regress 销售额 电视广告 报纸广告 网络广告
“回归结果”(The Illusion)
| Source | SS | df | MS | Number of obs = 200 |
|---|---|---|---|---|
| Model | 876.543 | 3 | 292.181 | F(3, 196) = 185.45 |
| Residual | 308.457 | 196 | 1.574 | Prob > F = 0.0000 |
| Total | 1185.000 | 199 | 5.955 | R-squared = 0.7397 |
| Adj R-squared = 0.7357 | ||||
| Root MSE = 1.255 |
| 销售额 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 电视广告 | 1.234 | 0.087 | 14.18 | 0.000 | | 1.062 1.406 |
| 报纸广告 | 0.345 | 0.112 | 3.08 | 0.002 | | 0.124 0.566 |
| 网络广告 | 0.876 | 0.075 | 11.68 | 0.000 | | 0.728 1.024 |
| _cons | 8.901 | 0.395 | 22.54 | 0.000 | | 8.122 9.680 |
解读:所有广告渠道都在 0.01 的显著性水平上显著,说明广告支出对销售额有显著的正向影响。电视广告的影响最大。
“真相大白”(The Revelation)
恭喜你,成功地进行了一次漂亮的数据挖掘! 你找到了几个显著的回归系数,R-squared 也还不错。但是,这又能说明什么呢?你有没有考虑过以下问题:
- 时间效应:你的数据是时间序列数据,销售额可能存在自相关性。你有没有检验过? 你有没有考虑使用时间序列模型,例如 ARIMA 模型?
- 广告效应的滞后性:今天的广告支出,可能要过几天才能看到效果。你有没有考虑引入滞后变量?
- 季节性因素:销售额可能受到季节性因素的影响,例如节假日促销。你有没有考虑到这些因素?
- 内生性问题:广告支出和销售额之间可能存在互为因果的关系。销量好的时候,公司可能会增加广告投入。你有没有考虑使用工具变量法来解决内生性问题?
你只是为了回归而回归,完全没有理论指导! 你没有思考数据背后的经济学逻辑,只是在盲目地寻找“显著性”。
更深入的分析方法:使用时间序列模型,引入滞后变量,考虑季节性因素,使用工具变量法。
参考资料:
* Stock, J. H., & Watson, M. W. (2015). Introduction to econometrics. Pearson.
* Enders, W. (2018). Applied econometric time series. John Wiley & Sons.
“警示语”(The Warning)
相关性不等于因果性,除非你有更强的证据。 别把数据挖掘当成科学研究!
例题三:教育程度与收入——一个被扭曲的真相
背景设定(The Setup)
研究问题:探讨教育程度对收入的影响。我们收集了 300 名成年人的数据,包括他们的教育年限(年)、年收入(万元)、以及一些其他可能影响收入的因素,例如工作经验(年)、性别(0=男,1=女)。
数据集(部分):
| 个人ID | 教育年限 | 年收入 | 工作经验 | 性别 |
|---|---|---|---|---|
| 1 | 12 | 6.5 | 10 | 0 |
| 2 | 16 | 9.2 | 5 | 1 |
| 3 | 10 | 5.8 | 15 | 0 |
| ... | ... | ... | ... | ... |
| 300 | 14 | 7.5 | 8 | 1 |
研究目的:建立回归模型,预测收入,并解释教育程度的影响。
Stata 代码:
regress 年收入 教育年限 工作经验 性别
“回归结果”(The Illusion)
| Source | SS | df | MS | Number of obs = 300 |
|---|---|---|---|---|
| Model | 1234.567 | 3 | 411.522 | F(3, 296) = 256.89 |
| Residual | 478.433 | 296 | 1.616 | Prob > F = 0.0000 |
| Total | 1713.000 | 299 | 5.729 | R-squared = 0.7207 |
| Adj R-squared = 0.7179 | ||||
| Root MSE = 1.271 |
| 年收入 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 教育年限 | 0.456 | 0.043 | 10.60 | 0.000 | | 0.371 0.541 |
| 工作经验 | 0.234 | 0.028 | 8.36 | 0.000 | | 0.179 0.289 |
| 性别 | -1.234 | 0.156 | -7.91 | 0.000 | | -1.541 -0.927 |
| _cons | 2.345 | 0.321 | 7.30 | 0.000 | | 1.713 2.977 |
解读:教育年限在 0.000 的显著性水平上显著,系数为正,说明教育程度越高,收入越高。性别也显著影响收入,女性的收入相对较低。
“真相大白”(The Revelation)
你以为你找到了教育回报率? 别自欺欺人了! 你忽略了能力偏误!
那些接受更多教育的人,往往也更聪明、更有毅力、更有 ambition。 这些不可观测的能力,才是真正决定收入的关键! 你把这些因素都遗漏了,导致教育的回报率被高估了!
更糟糕的是,你可能还存在测量误差! 那些自我报告的教育年限和收入数据,真的准确吗? 有些人可能会夸大自己的教育程度,有些人可能会隐瞒自己的真实收入。
更深入的分析方法:使用工具变量法,寻找与教育程度相关,但与能力无关的变量作为工具变量。例如,父母的教育程度、出生地等。或者,使用双生子研究,控制遗传和家庭背景的影响。
参考资料:
* Griliches, Z. (1977). Estimating the returns to schooling: Some econometric problems. Econometrica, 45(1), 1-22.
* Card, D. (1999). The causal effect of education on earnings. Handbook of labor economics, 3, 1801-1863.
“警示语”(The Warning)
测量误差和遗漏变量是计量经济学的两大敌人。 永远不要相信简单的回归结果!
例题四:利率与GDP增长——一个被误解的动态关系
背景设定(The Setup)
研究问题:探讨利率对 GDP 增长的影响。我们收集了某国家过去 150 个季度的数据,包括季度 GDP 增长率(%)、季度平均利率(%)。
数据集(部分):
| 季度 | GDP增长率 | 利率 |
|---|---|---|
| 2026Q1 | 1.2 | 2.5 |
| 2026Q2 | 1.5 | 2.8 |
| 2026Q3 | 1.0 | 2.3 |
| ... | ... | ... |
| 2063Q2 | 0.8 | 3.0 |
研究目的:建立回归模型,预测 GDP 增长率,并解释利率的影响。
Stata 代码:
regress GDP增长率 利率
“回归结果”(The Illusion)
| Source | SS | df | MS | Number of obs = 150 |
|---|---|---|---|---|
| Model | 12.345 | 1 | 12.345 | F(1, 148) = 10.29 |
| Residual | 177.655 | 148 | 1.200 | Prob > F = 0.0016 |
| Total | 190.000 | 149 | 1.275 | R-squared = 0.0649 |
| Adj R-squared = 0.0586 | ||||
| Root MSE = 1.095 |
| GDP增长率 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 利率 | -0.345 | 0.108 | -3.21 | 0.0016 | | -0.558 -0.133 |
| _cons | 2.567 | 0.272 | 9.44 | 0.000 | | 2.030 3.104 |
解读:利率在 0.0016 的显著性水平上显著,系数为负,说明利率越高,GDP 增长率越低。
“真相大白”(The Revelation)
别高兴得太早! 看看这可怜的 R-squared! 只有 6.49%,这意味着你的模型只能解释 GDP 增长率的 6.49% 的变动! 剩下的 93.51% 呢? 被你吃了?
更重要的是,你完全忽略了时间序列的特性! GDP 增长率和利率都可能是平稳性的,这意味着你需要进行单位根检验,看看数据是否需要进行差分。
此外,你还忽略了滞后效应! 利率对 GDP 增长的影响可能需要一段时间才能显现出来。你有没有考虑引入滞后变量?
更深入的分析方法:使用 VAR 模型,ADL 模型,或者其他时间序列模型。进行单位根检验,考虑协整关系。
参考资料:
* Lütkepohl, H. (2005). New introduction to multiple time series analysis. Springer Science & Business Media.
* SERP_事实素材 中的 Stata必学回归模型:从OLS到Logit,横截面与面板数据全... 提供了Stata中必学的回归模型,包括横截面和面板数据,以及代码示范和注意事项,可以帮助新手快速掌握基准回归模型的核心操作。
“警示语”(The Warning)
R-squared 低并不可怕,可怕的是你视而不见。 永远不要过度解读回归系数!
例题五:在线教育与考试成绩——一个被忽略的选择性偏误
背景设定(The Setup)
研究问题:探讨在线教育对考试成绩的影响。我们收集了 250 名学生的期末考试成绩,以及他们是否参加在线教育课程的信息(0=未参加,1=参加)。
数据集(部分):
| 学生ID | 考试成绩 | 是否参加在线教育 |
|---|---|---|
| 1 | 75 | 0 |
| 2 | 85 | 1 |
| 3 | 68 | 0 |
| ... | ... | ... |
| 250 | 92 | 1 |
研究目的:建立回归模型,预测考试成绩,并解释在线教育的影响。
Stata 代码:
regress 考试成绩 是否参加在线教育
“回归结果”(The Illusion)
| Source | SS | df | MS | Number of obs = 250 |
|---|---|---|---|---|
| Model | 4567.890 | 1 | 4567.890 | F(1, 248) = 34.56 |
| Residual | 32782.110 | 248 | 132.186 | Prob > F = 0.0000 |
| Total | 37350.000 | 249 | 150.000 | R-squared = 0.1223 |
| Adj R-squared = 0.1187 | ||||
| Root MSE = 11.50 |
| 考试成绩 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 是否参加在线教育 | 8.567 | 1.456 | 5.88 | 0.000 | | 5.698 11.436 |
| _cons | 70.233 | 0.987 | 71.16 | 0.000 | | 68.289 72.177 |
解读:是否参加在线教育在 0.000 的显著性水平上显著,系数为正,说明参加在线教育的学生,考试成绩更高。
“真相大白”(The Revelation)
你又上当了! 你犯了一个经典的错误:选择性偏误!
那些选择参加在线教育的学生,可能本身就更积极主动,更有学习动力。 这些学生即使不参加在线教育,也可能取得更好的成绩。 你把这些因素都忽略了,导致在线教育的效果被高估了! SERP_事实素材 中的 回归分析(stata实例详细解答过程) 提供了使用Stata进行回归分析的详细解答过程,可以参考。
更深入的分析方法:使用倾向得分匹配 (Propensity Score Matching, PSM),或者Heckman 选择模型,来控制选择性偏误。
参考资料:
* Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41-55.
* Heckman, J. J. (1979). Sample selection as a specification error. Econometrica, 47(1), 153-161.
“警示语”(The Warning)
因果推断需要谨慎。 不要轻易相信观察性研究的结果!
记住,回归分析是一门艺术,不是一门技术。 你需要的是批判性思维,而不是盲目地相信 Stata 的输出结果。 垃圾进,垃圾出 (Garbage in, garbage out)。