启智资讯网
Article

计量经济学侦探的反Stata回归分析例题库:揭露数据背后的陷阱

发布时间:2026-01-22 00:30:08 阅读量:39

.article-container { font-family: "Microsoft YaHei", sans-serif; line-height: 1.6; color: #333; max-width: 800px; margin: 0 auto; }
.article-container h1

计量经济学侦探的反Stata回归分析例题库:揭露数据背后的陷阱

摘要:本系列例题旨在通过揭示 Stata 回归分析中常见的陷阱,提高读者对计量经济学分析的批判性思维能力。每个例题都包含看似合理的研究问题、虚构但真实的数据集、标准的 Stata 回归代码、以及对隐藏问题的辛辣批判。目标是让读者意识到滥用回归分析可能导致的谬误,而不是单纯地教授软件操作。任务ID #4574。

计量经济学侦探的反Stata回归分析例题库:揭露数据背后的陷阱

你以为你掌握了 Stata? 你以为 regress y x1 x2 x3 就能解决一切问题? 哼,天真! 我,作为一名对计量经济学模型缺陷有着病态执着的学院派侦探,将带你深入数据泥潭,揭露那些被 Stata 轻易掩盖的真相。准备好迎接挑战吧!

例题一:房价与犯罪率——一个被遗漏的社区

背景设定(The Setup)

研究问题:探讨城市中房价与犯罪率的关系。我们假设,犯罪率高的地区,房价会相对较低。为了验证这一假设,我们收集了某城市 100 个社区的数据,包括平均房价(单位:万元/平方米)、犯罪率(每千人犯罪案件数)、以及一些其他可能影响房价的因素,例如学校质量评分(1-10 分)、距离市中心的距离(公里)。

数据集(部分):

社区ID 房价 犯罪率 学校质量 距离市中心
1 5.2 3.1 7 2.5
2 4.8 4.5 6 3.0
3 6.1 2.0 8 1.0
... ... ... ... ...
100 3.9 5.2 5 4.0

研究目的:建立回归模型,预测房价,并解释犯罪率的影响。

Stata 代码:

regress 房价 犯罪率 学校质量 距离市中心

“回归结果”(The Illusion)

Source SS df MS Number of obs = 100
Model 245.678 3 81.893 F(3, 96) = 42.56
Residual 184.322 96 1.920 Prob > F = 0.0000
Total 430.000 99 4.343 R-squared = 0.5713
Adj R-squared = 0.5579
Root MSE = 1.386

| 房价 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 犯罪率 | -0.523 | 0.125 | -4.18 | 0.000 | | -0.771 -0.275 |
| 学校质量 | 0.456 | 0.089 | 5.12 | 0.000 | | 0.279 0.633 |
| 距离市中心 | -0.211 | 0.072 | -2.93 | 0.004 | | -0.354 -0.068 |
| _cons | 4.987 | 0.451 | 11.06 | 0.000 | | 4.092 5.882 |

解读:犯罪率在 0.000 的显著性水平上显著,系数为负,说明犯罪率越高,房价越低。学校质量和距离市中心也显著影响房价,符合预期。

“真相大白”(The Revelation)

等等! 别被这些数字迷惑了! 你真的相信这个模型能解释房价的决定因素? 你有没有想过,这个城市可能存在一些特殊的社区,例如富人区,这些区域的犯罪率极低,但房价却异常高昂? 或者,一些老旧社区,犯罪率较高,但房价却因为历史原因而居高不下?

你忽略了社区异质性! 仅仅用这几个简单的变量,就想解释复杂的房价问题,简直是痴人说梦!更可笑的是,你竟然没有进行任何残差分析,看看是否存在异方差问题。 你的模型很可能存在严重的样本选择偏差

更深入的分析方法:考虑使用分位数回归,或者引入社区固定效应,以控制不可观测的社区特征。也许,你还需要考虑使用空间计量模型,因为房价往往存在空间相关性。

参考资料:
* Angrist, J. D., & Pischke, J. S. (2008). Mostly harmless econometrics: An empiricist's companion. Princeton university press.
* Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. MIT press.

“警示语”(The Warning)

Stata 只是一个工具,不能代替思考。 你需要的是批判性思维,而不是盲目地运行回归!

例题二:广告支出与销售额——一场数据挖掘的狂欢

背景设定(The Setup)

研究问题:探讨广告支出对销售额的影响。一家公司想了解在不同媒体渠道(电视、报纸、网络)的广告投入,对销售额的影响程度。他们收集了过去 200 天的数据,包括每日的销售额(单位:万元)、电视广告支出(万元)、报纸广告支出(万元)、网络广告支出(万元)。

数据集(部分):

日期 销售额 电视广告 报纸广告 网络广告
2026-01-01 15.2 3.1 1.5 2.0
2026-01-02 14.8 2.5 1.2 2.5
2026-01-03 16.1 3.5 1.8 2.2
... ... ... ... ...
2026-07-19 13.9 2.8 1.0 1.8

研究目的:建立回归模型,预测销售额,并解释不同广告渠道的影响。

Stata 代码:

regress 销售额 电视广告 报纸广告 网络广告

“回归结果”(The Illusion)

Source SS df MS Number of obs = 200
Model 876.543 3 292.181 F(3, 196) = 185.45
Residual 308.457 196 1.574 Prob > F = 0.0000
Total 1185.000 199 5.955 R-squared = 0.7397
Adj R-squared = 0.7357
Root MSE = 1.255

| 销售额 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 电视广告 | 1.234 | 0.087 | 14.18 | 0.000 | | 1.062 1.406 |
| 报纸广告 | 0.345 | 0.112 | 3.08 | 0.002 | | 0.124 0.566 |
| 网络广告 | 0.876 | 0.075 | 11.68 | 0.000 | | 0.728 1.024 |
| _cons | 8.901 | 0.395 | 22.54 | 0.000 | | 8.122 9.680 |

解读:所有广告渠道都在 0.01 的显著性水平上显著,说明广告支出对销售额有显著的正向影响。电视广告的影响最大。

“真相大白”(The Revelation)

恭喜你,成功地进行了一次漂亮的数据挖掘! 你找到了几个显著的回归系数,R-squared 也还不错。但是,这又能说明什么呢?你有没有考虑过以下问题:

  1. 时间效应:你的数据是时间序列数据,销售额可能存在自相关性。你有没有检验过? 你有没有考虑使用时间序列模型,例如 ARIMA 模型?
  2. 广告效应的滞后性:今天的广告支出,可能要过几天才能看到效果。你有没有考虑引入滞后变量
  3. 季节性因素:销售额可能受到季节性因素的影响,例如节假日促销。你有没有考虑到这些因素?
  4. 内生性问题:广告支出和销售额之间可能存在互为因果的关系。销量好的时候,公司可能会增加广告投入。你有没有考虑使用工具变量法来解决内生性问题?

你只是为了回归而回归,完全没有理论指导! 你没有思考数据背后的经济学逻辑,只是在盲目地寻找“显著性”。

更深入的分析方法:使用时间序列模型,引入滞后变量,考虑季节性因素,使用工具变量法。

参考资料:
* Stock, J. H., & Watson, M. W. (2015). Introduction to econometrics. Pearson.
* Enders, W. (2018). Applied econometric time series. John Wiley & Sons.

“警示语”(The Warning)

相关性不等于因果性,除非你有更强的证据。 别把数据挖掘当成科学研究!

例题三:教育程度与收入——一个被扭曲的真相

背景设定(The Setup)

研究问题:探讨教育程度对收入的影响。我们收集了 300 名成年人的数据,包括他们的教育年限(年)、年收入(万元)、以及一些其他可能影响收入的因素,例如工作经验(年)、性别(0=男,1=女)。

数据集(部分):

个人ID 教育年限 年收入 工作经验 性别
1 12 6.5 10 0
2 16 9.2 5 1
3 10 5.8 15 0
... ... ... ... ...
300 14 7.5 8 1

研究目的:建立回归模型,预测收入,并解释教育程度的影响。

Stata 代码:

regress 年收入 教育年限 工作经验 性别

“回归结果”(The Illusion)

Source SS df MS Number of obs = 300
Model 1234.567 3 411.522 F(3, 296) = 256.89
Residual 478.433 296 1.616 Prob > F = 0.0000
Total 1713.000 299 5.729 R-squared = 0.7207
Adj R-squared = 0.7179
Root MSE = 1.271

| 年收入 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 教育年限 | 0.456 | 0.043 | 10.60 | 0.000 | | 0.371 0.541 |
| 工作经验 | 0.234 | 0.028 | 8.36 | 0.000 | | 0.179 0.289 |
| 性别 | -1.234 | 0.156 | -7.91 | 0.000 | | -1.541 -0.927 |
| _cons | 2.345 | 0.321 | 7.30 | 0.000 | | 1.713 2.977 |

解读:教育年限在 0.000 的显著性水平上显著,系数为正,说明教育程度越高,收入越高。性别也显著影响收入,女性的收入相对较低。

“真相大白”(The Revelation)

你以为你找到了教育回报率? 别自欺欺人了! 你忽略了能力偏误

那些接受更多教育的人,往往也更聪明、更有毅力、更有 ambition。 这些不可观测的能力,才是真正决定收入的关键! 你把这些因素都遗漏了,导致教育的回报率被高估了!

更糟糕的是,你可能还存在测量误差! 那些自我报告的教育年限和收入数据,真的准确吗? 有些人可能会夸大自己的教育程度,有些人可能会隐瞒自己的真实收入。

更深入的分析方法:使用工具变量法,寻找与教育程度相关,但与能力无关的变量作为工具变量。例如,父母的教育程度、出生地等。或者,使用双生子研究,控制遗传和家庭背景的影响。

参考资料:
* Griliches, Z. (1977). Estimating the returns to schooling: Some econometric problems. Econometrica, 45(1), 1-22.
* Card, D. (1999). The causal effect of education on earnings. Handbook of labor economics, 3, 1801-1863.

“警示语”(The Warning)

测量误差和遗漏变量是计量经济学的两大敌人。 永远不要相信简单的回归结果!

例题四:利率与GDP增长——一个被误解的动态关系

背景设定(The Setup)

研究问题:探讨利率对 GDP 增长的影响。我们收集了某国家过去 150 个季度的数据,包括季度 GDP 增长率(%)、季度平均利率(%)。

数据集(部分):

季度 GDP增长率 利率
2026Q1 1.2 2.5
2026Q2 1.5 2.8
2026Q3 1.0 2.3
... ... ...
2063Q2 0.8 3.0

研究目的:建立回归模型,预测 GDP 增长率,并解释利率的影响。

Stata 代码:

regress GDP增长率 利率

“回归结果”(The Illusion)

Source SS df MS Number of obs = 150
Model 12.345 1 12.345 F(1, 148) = 10.29
Residual 177.655 148 1.200 Prob > F = 0.0016
Total 190.000 149 1.275 R-squared = 0.0649
Adj R-squared = 0.0586
Root MSE = 1.095

| GDP增长率 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 利率 | -0.345 | 0.108 | -3.21 | 0.0016 | | -0.558 -0.133 |
| _cons | 2.567 | 0.272 | 9.44 | 0.000 | | 2.030 3.104 |

解读:利率在 0.0016 的显著性水平上显著,系数为负,说明利率越高,GDP 增长率越低。

“真相大白”(The Revelation)

别高兴得太早! 看看这可怜的 R-squared! 只有 6.49%,这意味着你的模型只能解释 GDP 增长率的 6.49% 的变动! 剩下的 93.51% 呢? 被你吃了?

更重要的是,你完全忽略了时间序列的特性! GDP 增长率和利率都可能是平稳性的,这意味着你需要进行单位根检验,看看数据是否需要进行差分

此外,你还忽略了滞后效应! 利率对 GDP 增长的影响可能需要一段时间才能显现出来。你有没有考虑引入滞后变量

更深入的分析方法:使用 VAR 模型,ADL 模型,或者其他时间序列模型。进行单位根检验,考虑协整关系。

参考资料:
* Lütkepohl, H. (2005). New introduction to multiple time series analysis. Springer Science & Business Media.
* SERP_事实素材 中的 Stata必学回归模型:从OLS到Logit,横截面与面板数据全... 提供了Stata中必学的回归模型,包括横截面和面板数据,以及代码示范和注意事项,可以帮助新手快速掌握基准回归模型的核心操作。

“警示语”(The Warning)

R-squared 低并不可怕,可怕的是你视而不见。 永远不要过度解读回归系数!

例题五:在线教育与考试成绩——一个被忽略的选择性偏误

背景设定(The Setup)

研究问题:探讨在线教育对考试成绩的影响。我们收集了 250 名学生的期末考试成绩,以及他们是否参加在线教育课程的信息(0=未参加,1=参加)。

数据集(部分):

学生ID 考试成绩 是否参加在线教育
1 75 0
2 85 1
3 68 0
... ... ...
250 92 1

研究目的:建立回归模型,预测考试成绩,并解释在线教育的影响。

Stata 代码:

regress 考试成绩 是否参加在线教育

“回归结果”(The Illusion)

Source SS df MS Number of obs = 250
Model 4567.890 1 4567.890 F(1, 248) = 34.56
Residual 32782.110 248 132.186 Prob > F = 0.0000
Total 37350.000 249 150.000 R-squared = 0.1223
Adj R-squared = 0.1187
Root MSE = 11.50

| 考试成绩 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 是否参加在线教育 | 8.567 | 1.456 | 5.88 | 0.000 | | 5.698 11.436 |
| _cons | 70.233 | 0.987 | 71.16 | 0.000 | | 68.289 72.177 |

解读:是否参加在线教育在 0.000 的显著性水平上显著,系数为正,说明参加在线教育的学生,考试成绩更高。

“真相大白”(The Revelation)

你又上当了! 你犯了一个经典的错误:选择性偏误

那些选择参加在线教育的学生,可能本身就更积极主动,更有学习动力。 这些学生即使不参加在线教育,也可能取得更好的成绩。 你把这些因素都忽略了,导致在线教育的效果被高估了! SERP_事实素材 中的 回归分析(stata实例详细解答过程) 提供了使用Stata进行回归分析的详细解答过程,可以参考。

更深入的分析方法:使用倾向得分匹配 (Propensity Score Matching, PSM),或者Heckman 选择模型,来控制选择性偏误。

参考资料:
* Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41-55.
* Heckman, J. J. (1979). Sample selection as a specification error. Econometrica, 47(1), 153-161.

“警示语”(The Warning)

因果推断需要谨慎。 不要轻易相信观察性研究的结果!

记住,回归分析是一门艺术,不是一门技术。 你需要的是批判性思维,而不是盲目地相信 Stata 的输出结果。 垃圾进,垃圾出 (Garbage in, garbage out)。

参考来源: