笔记丨Do Employers "Walk the Talk" After All? An Illustration of Methods for Assessing Signals in Underpowered Designs

  • 社会科学关注可重复性
    • “可重复性危机”
    • 低效设计下的零假设显著性检验(NHST)备受批评
      • 解读出虚假的零假设支持
      • 未能识别真实效应的误差(第二类错误)
    • 两种改善NHST的方法
      • 后验设计分析(Post hoc design analysis, PHDA):评估NHST中生成零结果的分析是否有足够功效检测合理效应
      • 贝叶斯分析(Bayesian analysis with default priors):更好地从小样本、罕见事件数据或其他低效设计中提取信号
      • 将Pager & Quillian(2005)的研究用于说明这些方法
  • PHDA:如何知道NHST分析产生的不显著结果是否有足够统计力来检测合理的影响?
    • 统计功效:给定测试正确拒绝零假设的概率
      • 大样本、预期效应较大、方差较低的研究有较高统计功效
      • 统计功效低于0.80则被认为是低效
        • 即使效应真实存在,低样本量也可能导致未能拒绝零假设(第二类错误)
        • 测量数据的方差较大,分组严重不平衡,会进一步限制统计功效
        • 在功效不足的情况下,只有特别大的效应可能被检测到,可能导致研究者对效应大小的高估(“赢家的诅咒”)
        • 在罕见情况下拒绝零假设时,可能产生假阳性(第一类错误)或严重高估效应大小
        • 由于显著性检验主导的学术发表标准,低效研究的零结果(非显著性)更容易被“文件抽屉问题”埋没
        • 零结果(未拒绝零假设)可能被错误解读为支持零假设,实际可能只是功效不足
    • 后验设计分析
      • 低效研究推断错误可能性很高,因此有必要确定NHST的统计功效,然而:
        • 许多研究在数据收集前未进行功效分析,导致零结果可能由设计缺陷(如功效不足)而非真实的效应缺失引起
        • 传统的后验功效计算基于已观察到的效应大小计算功效,并使研究者可能错误地将低功效等同于零假设成立
      • Gelman & Carlin(2014)提供了一种创新的后验设计分析方法(PHDA)
        • 聚焦“合理效应大小”
          • 通过理论知识和外部证据,提出研究中可能存在的效应大小范围
          • 强调避免依赖于已观察到的效应大小
        • 类型错误分析
          • 符号错误(Type S error):估计方向错误的概率
          • 幅度错误(Type M error):高估或低估效应大小的程度
      • 实施步骤:
          1. 确定研究设计特征,收集与功效相关的要素,如样本量、变量分布、测量方差、显著性水平
          1. 基于理论知识、元分析或类似研究结果,假设合理效应大小,独立于已观察数据
          1. 输入设计特征和合理效应大小,利用统计工具计算功效,比较计算结果与常见功效标准(如0.80),判断研究设计是否有足够功效检测假设效应
  • 贝叶斯分析:如何从数据不足的数据中检测出有意义的信号
    • 贝叶斯分析为参数模型指定先验分布,通过整合先验信息,挖掘出可能的信号,但本文主张默认先验条件(如均匀分布)下的贝叶斯分析:
      • 对后验分布的影响较小,从而保证后验分布主要由数据驱动
      • 结果通常与 NHST 结果相似并可比,且在小样本情况下可以改善NHST推断
      • 在缺乏领域知识的情况下,无需研究者进行复杂的先验分布指定,易于使用和解释
      • NHST的零结果毫无信息,但通常被错误地解释为支持零假设,而贝叶斯分析提供了有关数据中给定信号强度和精度的更多信息
  • 言行不一的案例:P&Q(2005)
    • 著名的实验性审计研究(Pager,2003)发现雇主更不愿意给有犯罪记录的申请人回电,而P&Q(2005)对雇主的态度与行为之间的关系重新进行了分析:
      • NHST 检验表明雇主的态度与行为之间没有显著关联(零假设成立)
      • 零结果被广泛引用为证据,支持社会学中“态度与行为不一致性”的观点
      • 按:实验性审计是研究者通过实验性观察测量的实际行为
    • 案例选择的原因
      • 该研究NHST的零结果被误解为态度与行为确实无关,但实际可能仅反映了设计的功效问题
      • 样本量(n=156)足够,但是雇主回拨有犯罪记录的申请人的比例非常低(仅 11 次回拨),属于稀有事件,导致研究功效较低,这是社科研究的常见状况
      • 该研究的数据/方法非常透明,有可能使用贝叶斯方法重现
    • 数据:P&Q(2005)公布的交叉表格组频率数据,并重新编码(?),评估已发表结论在测量的稳健性
  • PHDA的评估(?)
      1. 假设合理效应大小
      • 识别每个编码条件下的反事实“最大可能”的情景-审计关联(F/Fmax=1)
      • 基于元分析中关于调查态度测量与实际行为观测之间平均相关性的已有信息
      • 将“最大可能”分布调整为两种反事实期望的回拨分布,分别对应于“中等”(F/Fmax = 0.38)和“强”(F/Fmax = 0.52)的情景–审计关联
      • 按:情景–审计关联表示情景中测得的态度与审计中观测到的实际行为之间的关联程度
      1. 比较计算结果与常见功效标准
      • 只有反事实分布的统计功效大于0.80
      • P&Q(2005)强效应和中等效应的功效均低于0.80,表明该研究设计可能无法有效检测态度与行为的潜在关联
  • 贝叶斯分析
    • 使用R中的Bayesian First Aid包估计Vignette-audit关联的可能参数值
    • 根据研究数据和先验分布,通过贝叶斯公式计算态度与行为之间的后验分布
      • 后验平均值显示,尽管原研究中 NHST 的结果为不显著(功效不足),贝叶斯方法仍然揭示出态度和行为之间可能存在一定程度的关联
      • 高密度区间(HDI )并未完全包含零,暗示数据中仍可能存在信号支持态度与行为的关联
      • 零假设的后验概率较低,表明原研究中 NHST 的零结果可能是功效不足导致的假阴性
  • 研究意义
    • 研究人员和编辑越来越多地鼓励发表无意义的结果以减少文件抽屉问题,提高元分析结果的准确性,并最终鼓励理论上的反驳,但本文对P&Q(2005)的检验表明虚假阴性相比于虚假阳性构成了同样甚至更大的威胁,对无结果发现应该进行批判性评估和谨慎解释(如运用PHDA)
    • 默认先验条件的贝叶斯分析提供了比许多复杂的NHST对大型数据集更多的信息,并帮助推动社会学家在面对不确定性和不准确性特征的结果中更有效地推进实质性的和理论上的辩论。