笔记丨断点回归

@ 邱嘉平,《因果推断实用计量方法》,第12章,《断点回归》,上海财经大学出版社有限公司,2020年。

第十二章 断点回归

  • 断点回归(Regression Discontinuity Design, RDD)
    • 适用于某些特定事件:个体是否受到事件的影响,取决于其某个可观测特征是否大于给定的临界值。
      • 如果事件发生的概率发生了从0到1的变化,则称为清晰断点回归(Sharp RDD)。
      • 如果概率发生了非0到1的变化,则称为模糊断点回归(Fuzzy RDD)。
    • 理解RDD的两个要点
      • 连续性:潜在结果函数的连续性保证了通过在断点两边附近的观测值去估计断点处的处置效应是合理的。
      • 局部随机性:在断点两边附近个体是否接受处置是随机的。
    • 数据要求:
        1. 包含三个基本变量:
        • (1)配置变量:个体的一个连续特征变量,值是否大于断点将决定个体是否接受处置。
        • (2)断点:用于决定个体是否接受处置的阈值。
        • (3)观测结果:个体接受处置或未接受处置的观测结果。
        1. 配置变量的值在断点附近无法被准确操纵。
        1. 断点的选择不受配置变量的影响。
        1. 除了处置状态在断点处发生跳跃式变化外,其他未处置的个体特征变量在断点处没有显著差异。
    • 常用的Stata RDD命令![[截屏2025-03-17 16.38.43.png]]
    • RDD的估计步骤
      • (一)讨论配置变量和断点的产生过程,确定配置变量和断点选择是独立的。
      • (二)观察结果变量在断点处是否有明显的跳跃。
          1. 用散点图显示结果变量和配置变量的关系(twoway scatter)。
          1. 用拟合图显示结果变量和配置变量的关系(rdplot)。
          • (1)多项式回归拟合:选择多项式次数。
          • (2)区间均值拟合:
            • a. 选择区间的分割方式:按配置变量值平均分割;按观测数量平均分割。
            • b. 选择区间的数量:手动设置;选择IMSE最优区间^[最小化区间平均值估计量的“积分均方误差”]数量(rdbwselect)。
      • (三)检验数据是否符合使用RDD的前提条件。
          1. 检验配置变量密度函数在断点处的连续性(rddensity, DCdensity)。
          1. 检验非结果特征变量在断点处的连续性(rdplot, rdrobust)。
      • (四)估计处置变量在断点处的跳跃程度和显著性。
        • 断点处处置效应的点估计。
            1. 全局多项式回归(regress):多项式次数选择。
            1. 局部多项式回归(rdrobust):多项式次数选择;带宽选择;权重选择。
      • (五)稳健性检验
          1. 在多项式估计中加入其他特征变量Z作为自变量,降低干扰项的误差,提高估计精度。
          1. 安慰剂检验,即检验一个不应该受处置事件影响的结果变量在断点处是否也存在断点。
    • 实例:Campello, M., Gao, J., Qiu, J., & Zhang, Y. (2018). Bankruptcy and the cost of organized labor: Evidence from union elections. The Review of Financial Studies31(3), 980-1013.