计量经济学侦探的反Stata回归分析例题库：揭露数据背后的陷阱

摘要：本系列例题旨在通过揭示 Stata 回归分析中常见的陷阱，提高读者对计量经济学分析的批判性思维能力。每个例题都包含看似合理的研究问题、虚构但真实的数据集、标准的 Stata 回归代码、以及对隐藏问题的辛辣批判。目标是让读者意识到滥用回归分析可能导致的谬误，而不是单纯地教授软件操作。任务ID #4574。

计量经济学侦探的反Stata回归分析例题库：揭露数据背后的陷阱

你以为你掌握了 Stata？你以为 regress y x1 x2 x3 就能解决一切问题？哼，天真！我，作为一名对计量经济学模型缺陷有着病态执着的学院派侦探，将带你深入数据泥潭，揭露那些被 Stata 轻易掩盖的真相。准备好迎接挑战吧！

例题一：房价与犯罪率——一个被遗漏的社区

背景设定（The Setup）

研究问题：探讨城市中房价与犯罪率的关系。我们假设，犯罪率高的地区，房价会相对较低。为了验证这一假设，我们收集了某城市 100 个社区的数据，包括平均房价（单位：万元/平方米）、犯罪率（每千人犯罪案件数）、以及一些其他可能影响房价的因素，例如学校质量评分（1-10 分）、距离市中心的距离（公里）。

数据集（部分）：

社区ID	房价	犯罪率	学校质量	距离市中心
1	5.2	3.1	7	2.5
2	4.8	4.5	6	3.0
3	6.1	2.0	8	1.0
...	...	...	...	...
100	3.9	5.2	5	4.0

研究目的：建立回归模型，预测房价，并解释犯罪率的影响。

Stata 代码：

regress 房价 犯罪率 学校质量 距离市中心

“回归结果”（The Illusion）

Source	SS	df	MS	Number of obs = 100
Model	245.678	3	81.893	F(3, 96) = 42.56
Residual	184.322	96	1.920	Prob > F = 0.0000
Total	430.000	99	4.343	R-squared = 0.5713
				Adj R-squared = 0.5579
				Root MSE = 1.386

| 房价 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 犯罪率 | -0.523 | 0.125 | -4.18 | 0.000 | | -0.771 -0.275 |
| 学校质量 | 0.456 | 0.089 | 5.12 | 0.000 | | 0.279 0.633 |
| 距离市中心 | -0.211 | 0.072 | -2.93 | 0.004 | | -0.354 -0.068 |
| _cons | 4.987 | 0.451 | 11.06 | 0.000 | | 4.092 5.882 |

解读：犯罪率在 0.000 的显著性水平上显著，系数为负，说明犯罪率越高，房价越低。学校质量和距离市中心也显著影响房价，符合预期。

“真相大白”（The Revelation）

等等！别被这些数字迷惑了！你真的相信这个模型能解释房价的决定因素？你有没有想过，这个城市可能存在一些特殊的社区，例如富人区，这些区域的犯罪率极低，但房价却异常高昂？或者，一些老旧社区，犯罪率较高，但房价却因为历史原因而居高不下？

你忽略了社区异质性！仅仅用这几个简单的变量，就想解释复杂的房价问题，简直是痴人说梦！更可笑的是，你竟然没有进行任何残差分析，看看是否存在异方差问题。你的模型很可能存在严重的样本选择偏差！

更深入的分析方法：考虑使用分位数回归，或者引入社区固定效应，以控制不可观测的社区特征。也许，你还需要考虑使用空间计量模型，因为房价往往存在空间相关性。

参考资料：
* Angrist, J. D., & Pischke, J. S. (2008). Mostly harmless econometrics: An empiricist's companion. Princeton university press.
* Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. MIT press.

“警示语”（The Warning）

Stata 只是一个工具，不能代替思考。你需要的是批判性思维，而不是盲目地运行回归！

例题二：广告支出与销售额——一场数据挖掘的狂欢

背景设定（The Setup）

研究问题：探讨广告支出对销售额的影响。一家公司想了解在不同媒体渠道（电视、报纸、网络）的广告投入，对销售额的影响程度。他们收集了过去 200 天的数据，包括每日的销售额（单位：万元）、电视广告支出（万元）、报纸广告支出（万元）、网络广告支出（万元）。

数据集（部分）：

日期	销售额	电视广告	报纸广告	网络广告
2026-01-01	15.2	3.1	1.5	2.0
2026-01-02	14.8	2.5	1.2	2.5
2026-01-03	16.1	3.5	1.8	2.2
...	...	...	...	...
2026-07-19	13.9	2.8	1.0	1.8

研究目的：建立回归模型，预测销售额，并解释不同广告渠道的影响。

Stata 代码：

regress 销售额 电视广告 报纸广告 网络广告

“回归结果”（The Illusion）

Source	SS	df	MS	Number of obs = 200
Model	876.543	3	292.181	F(3, 196) = 185.45
Residual	308.457	196	1.574	Prob > F = 0.0000
Total	1185.000	199	5.955	R-squared = 0.7397
				Adj R-squared = 0.7357
				Root MSE = 1.255

| 销售额 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 电视广告 | 1.234 | 0.087 | 14.18 | 0.000 | | 1.062 1.406 |
| 报纸广告 | 0.345 | 0.112 | 3.08 | 0.002 | | 0.124 0.566 |
| 网络广告 | 0.876 | 0.075 | 11.68 | 0.000 | | 0.728 1.024 |
| _cons | 8.901 | 0.395 | 22.54 | 0.000 | | 8.122 9.680 |

解读：所有广告渠道都在 0.01 的显著性水平上显著，说明广告支出对销售额有显著的正向影响。电视广告的影响最大。

“真相大白”（The Revelation）

恭喜你，成功地进行了一次漂亮的数据挖掘！你找到了几个显著的回归系数，R-squared 也还不错。但是，这又能说明什么呢？你有没有考虑过以下问题：

时间效应：你的数据是时间序列数据，销售额可能存在自相关性。你有没有检验过？你有没有考虑使用时间序列模型，例如 ARIMA 模型？
广告效应的滞后性：今天的广告支出，可能要过几天才能看到效果。你有没有考虑引入滞后变量？
季节性因素：销售额可能受到季节性因素的影响，例如节假日促销。你有没有考虑到这些因素？
内生性问题：广告支出和销售额之间可能存在互为因果的关系。销量好的时候，公司可能会增加广告投入。你有没有考虑使用工具变量法来解决内生性问题？

你只是为了回归而回归，完全没有理论指导！你没有思考数据背后的经济学逻辑，只是在盲目地寻找“显著性”。

更深入的分析方法：使用时间序列模型，引入滞后变量，考虑季节性因素，使用工具变量法。

参考资料：
* Stock, J. H., & Watson, M. W. (2015). Introduction to econometrics. Pearson.
* Enders, W. (2018). Applied econometric time series. John Wiley & Sons.

“警示语”（The Warning）

相关性不等于因果性，除非你有更强的证据。别把数据挖掘当成科学研究！

例题三：教育程度与收入——一个被扭曲的真相

背景设定（The Setup）

研究问题：探讨教育程度对收入的影响。我们收集了 300 名成年人的数据，包括他们的教育年限（年）、年收入（万元）、以及一些其他可能影响收入的因素，例如工作经验（年）、性别（0=男，1=女）。

数据集（部分）：

个人ID	教育年限	年收入	工作经验	性别
1	12	6.5	10	0
2	16	9.2	5	1
3	10	5.8	15	0
...	...	...	...	...
300	14	7.5	8	1

研究目的：建立回归模型，预测收入，并解释教育程度的影响。

Stata 代码：

regress 年收入 教育年限 工作经验 性别

“回归结果”（The Illusion）

Source	SS	df	MS	Number of obs = 300
Model	1234.567	3	411.522	F(3, 296) = 256.89
Residual	478.433	296	1.616	Prob > F = 0.0000
Total	1713.000	299	5.729	R-squared = 0.7207
				Adj R-squared = 0.7179
				Root MSE = 1.271

| 年收入 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 教育年限 | 0.456 | 0.043 | 10.60 | 0.000 | | 0.371 0.541 |
| 工作经验 | 0.234 | 0.028 | 8.36 | 0.000 | | 0.179 0.289 |
| 性别 | -1.234 | 0.156 | -7.91 | 0.000 | | -1.541 -0.927 |
| _cons | 2.345 | 0.321 | 7.30 | 0.000 | | 1.713 2.977 |

解读：教育年限在 0.000 的显著性水平上显著，系数为正，说明教育程度越高，收入越高。性别也显著影响收入，女性的收入相对较低。

“真相大白”（The Revelation）

你以为你找到了教育回报率？别自欺欺人了！你忽略了能力偏误！

那些接受更多教育的人，往往也更聪明、更有毅力、更有 ambition。这些不可观测的能力，才是真正决定收入的关键！你把这些因素都遗漏了，导致教育的回报率被高估了！

更糟糕的是，你可能还存在测量误差！那些自我报告的教育年限和收入数据，真的准确吗？有些人可能会夸大自己的教育程度，有些人可能会隐瞒自己的真实收入。

更深入的分析方法：使用工具变量法，寻找与教育程度相关，但与能力无关的变量作为工具变量。例如，父母的教育程度、出生地等。或者，使用双生子研究，控制遗传和家庭背景的影响。

参考资料：
* Griliches, Z. (1977). Estimating the returns to schooling: Some econometric problems. Econometrica, 45(1), 1-22.
* Card, D. (1999). The causal effect of education on earnings. Handbook of labor economics, 3, 1801-1863.

“警示语”（The Warning）

测量误差和遗漏变量是计量经济学的两大敌人。永远不要相信简单的回归结果！

例题四：利率与GDP增长——一个被误解的动态关系

背景设定（The Setup）

研究问题：探讨利率对 GDP 增长的影响。我们收集了某国家过去 150 个季度的数据，包括季度 GDP 增长率（%）、季度平均利率（%）。

数据集（部分）：

季度	GDP增长率	利率
2026Q1	1.2	2.5
2026Q2	1.5	2.8
2026Q3	1.0	2.3
...	...	...
2063Q2	0.8	3.0

研究目的：建立回归模型，预测 GDP 增长率，并解释利率的影响。

Stata 代码：

regress GDP增长率 利率

“回归结果”（The Illusion）

Source	SS	df	MS	Number of obs = 150
Model	12.345	1	12.345	F(1, 148) = 10.29
Residual	177.655	148	1.200	Prob > F = 0.0016
Total	190.000	149	1.275	R-squared = 0.0649
				Adj R-squared = 0.0586
				Root MSE = 1.095

| GDP增长率 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 利率 | -0.345 | 0.108 | -3.21 | 0.0016 | | -0.558 -0.133 |
| _cons | 2.567 | 0.272 | 9.44 | 0.000 | | 2.030 3.104 |

解读：利率在 0.0016 的显著性水平上显著，系数为负，说明利率越高，GDP 增长率越低。

“真相大白”（The Revelation）

别高兴得太早！看看这可怜的 R-squared！只有 6.49%，这意味着你的模型只能解释 GDP 增长率的 6.49% 的变动！剩下的 93.51% 呢？被你吃了？

更重要的是，你完全忽略了时间序列的特性！ GDP 增长率和利率都可能是平稳性的，这意味着你需要进行单位根检验，看看数据是否需要进行差分。

此外，你还忽略了滞后效应！利率对 GDP 增长的影响可能需要一段时间才能显现出来。你有没有考虑引入滞后变量？

更深入的分析方法：使用 VAR 模型，ADL 模型，或者其他时间序列模型。进行单位根检验，考虑协整关系。

参考资料：
* Lütkepohl, H. (2005). New introduction to multiple time series analysis. Springer Science & Business Media.
* SERP_事实素材中的 Stata必学回归模型：从OLS到Logit，横截面与面板数据全... 提供了Stata中必学的回归模型，包括横截面和面板数据，以及代码示范和注意事项，可以帮助新手快速掌握基准回归模型的核心操作。

“警示语”（The Warning）

R-squared 低并不可怕，可怕的是你视而不见。永远不要过度解读回归系数！

例题五：在线教育与考试成绩——一个被忽略的选择性偏误

背景设定（The Setup）

研究问题：探讨在线教育对考试成绩的影响。我们收集了 250 名学生的期末考试成绩，以及他们是否参加在线教育课程的信息（0=未参加，1=参加）。

数据集（部分）：

学生ID	考试成绩	是否参加在线教育
1	75	0
2	85	1
3	68	0
...	...	...
250	92	1

研究目的：建立回归模型，预测考试成绩，并解释在线教育的影响。

Stata 代码：

regress 考试成绩 是否参加在线教育

“回归结果”（The Illusion）

Source	SS	df	MS	Number of obs = 250
Model	4567.890	1	4567.890	F(1, 248) = 34.56
Residual	32782.110	248	132.186	Prob > F = 0.0000
Total	37350.000	249	150.000	R-squared = 0.1223
				Adj R-squared = 0.1187
				Root MSE = 11.50

| 考试成绩 | Coef. | Std. Err. | t | P>|t| | [95% Conf. Interval] |
|---|---|---|---|---|---|---|
| 是否参加在线教育 | 8.567 | 1.456 | 5.88 | 0.000 | | 5.698 11.436 |
| _cons | 70.233 | 0.987 | 71.16 | 0.000 | | 68.289 72.177 |

解读：是否参加在线教育在 0.000 的显著性水平上显著，系数为正，说明参加在线教育的学生，考试成绩更高。

“真相大白”（The Revelation）

你又上当了！你犯了一个经典的错误：选择性偏误！

那些选择参加在线教育的学生，可能本身就更积极主动，更有学习动力。这些学生即使不参加在线教育，也可能取得更好的成绩。你把这些因素都忽略了，导致在线教育的效果被高估了！ SERP_事实素材中的回归分析（stata实例详细解答过程）提供了使用Stata进行回归分析的详细解答过程，可以参考。

更深入的分析方法：使用倾向得分匹配 (Propensity Score Matching, PSM)，或者Heckman 选择模型，来控制选择性偏误。

参考资料：
* Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41-55.
* Heckman, J. J. (1979). Sample selection as a specification error. Econometrica, 47(1), 153-161.

“警示语”（The Warning）

因果推断需要谨慎。不要轻易相信观察性研究的结果！

记住，回归分析是一门艺术，不是一门技术。你需要的是批判性思维，而不是盲目地相信 Stata 的输出结果。垃圾进，垃圾出 (Garbage in, garbage out)。

相关话题：stata回归分析例题库下载stata回归分析例题库及答案stata回归分析例题库大全stata回归分析例题库存stata回归分析例题库官网stata回归分析例题库文件stata回归分析例题库软件stata回归分析stata回归分析代码stata回归分析例题stata回归分析实例讲解stata回归分析步骤stata回归分析结果stata回归分析表格解读stata基准回归代码回归分析回归分析模型

参考来源：

华体会华体会开云 MK体育爱游戏爱游戏华体会亚星华体会 MK体育天天盈球

上一篇《剑灵怀旧服》八卦牌深度评测：别再抄攻略了，自

下一篇超越寻宝：阿拉索书籍的艾泽拉斯文化回响与角色

社区ID	房价	犯罪率	学校质量	距离市中心
1	5.2	3.1	7	2.5
2	4.8	4.5	6	3.0
3	6.1	2.0	8	1.0
...	...	...	...	...
100	3.9	5.2	5	4.0

社区ID	房价	犯罪率	学校质量	距离市中心
1	5.2	3.1	7	2.5
2	4.8	4.5	6	3.0
3	6.1	2.0	8	1.0
...	...	...	...	...
100	3.9	5.2	5	4.0

社区ID	房价	犯罪率	学校质量	距离市中心
1	5.2	3.1	7	2.5
2	4.8	4.5	6	3.0
3	6.1	2.0	8	1.0
...	...	...	...	...
100	3.9	5.2	5	4.0