编者按: 在统计学、社会科学和生物医学等领域,研究工作的主要目的是获取变量之间的因果关系,而非简单的相关关系。围绕“如何进行因果推断”这一重要问题,学界目前已形成了多个思想流派。其中,本书是由两位因果推断领域的权威学者共同撰写的实用指南,系统介绍了基于潜在结果框架的鲁宾因果模型。这是因果推断领域的众多学派中发展相对成熟、应用相对广泛的一支,非常适合作为入门者学习的起点。本书的作者之一,唐纳德·B.鲁宾,最早将其构建为思考因果关系的一般框架。另一位作者吉多·W.因本斯则在因果关系分析的方法论方面的贡献卓著,并因此获得了2021年诺贝尔经济学奖。
以下内容摘编自两位作者为《因果推断导论》撰写的前言。
 《因果推断导论——统计学、生物医学与社会科学的视角》 [美]吉多·W.因本斯 [美]唐纳德·B.鲁宾 著 肖志国 黎德元 秦国友 朱仲义 译 格致出版社 2025年7月出版
在许多统计应用中,令人感兴趣的问题很大程度上与因果关系有关,而不仅仅是描述或关联的问题。例如,医学研究人员可能希望了解一种新药对某种疾病的疗效。经济学家可能对揭示职业培训计划对个人就业前景的影响,以及新税或法规对经济活动的影响感兴趣。社会学家可能关注离婚对子女后续教育的影响。在本书中,我们讨论研究这些问题的统计方法。
这本书起源于我们在1992年于哈佛大学任教期间的一次对话。我们发现,虽然我们都对因果关系的问题感兴趣,但由于来自不同学科,习惯于不同的术语和惯例,我们在交流想法时遇到了困难。然而,对这些不同领域中的想法的兴奋激励我们利用这些困难,从而开展了长期的合作,包括项目研究、研究生和本科教学以及论文指导。本书是这种合作的体现。本书直接基于我们在哈佛大学的一些学期和季度课程,起初是共同授课,之后我们分别在加州大学洛杉矶分校、加州大学伯克利分校和斯坦福大学教授了多年课程。这些课程主要面向统计学、经济学、商学和其他应用统计学领域的研究生和本科生。
这本书采用的方法具有几个关键特点。首先,我们的观点是所有因果问题都与具体的干预或处理措施有关。其次,因果问题被视为潜在结果的比较,每个潜在结果对应于处理的水平。如果处理采用了相应的水平,就可以观察到每个潜在结果。在处理采用了特定水平之后,只有与该水平对应的潜在结果才会被实际观察到。因果效应涉及观察到的结果与可能观察到其他潜在结果之间的比较,这些结果是处理采用了不同水平时应当被观察到的,但事实上没有被观察到。因果推断因此本质上是一个缺失数据问题,就像所有缺失数据问题一样,由决定哪些数据值被观察到和哪些数据值缺失的机制发挥关键作用。在因果推断中,这个机制被称为分配机制(assignment mechanism),它决定了所研究个体采取的处理水平。
这本书分为七个部分。在第一部分中,阐述我们在因果推断方面的基本理念,并描述潜在结果框架。接下来的三个部分根据分配机制的假设进行区分。在第二部分中,我们假设分配机制与经典随机实验相一致。
在第三部分中,我们假设分配机制在某种明确定义的意义上是“正则的”,这扩展了随机实验的范围。在本书的这一部分中,讨论了我们称为观察性研究的“设计”阶段,我们认为这一阶段对于保证结论的可靠性非常重要。在接下来的第四部分,我们讨论具有正则分配机制的研究的数据分析。在这里,我们考虑匹配和子分类程序,以及基于模型和加权的方法。
在第五部分中,我们放松了这种正则性的假设,并讨论更一般的分配机制。首先,我们评估正则性所需的关键假设,即无混杂性。在本书的这一部分中,我们还探讨了放松一些关键特征的敏感性分析。
在本书的第六部分中,我们考虑分配机制是正则的,但分配的执行并不完美的情况。
因此,接受处理的概率可能取决于个体的可观察和未观察特征以及结果。为了解决这些复杂性,我们转向工具变量方法。本书的第七部分是结论。
与所有书籍一样,我们的书也有局限性。首要的是我们专注于二元处理。尽管许多结果可以很容易地推广到多值处理,但我们专注于二元处理的情况,因为在这种情况下已经涉及了许多关键的概念问题。其次,在本书的大部分内容中,我们做出了“稳定性”假设,即应用于一个个体的处理不会影响其他个体的结果,并且没有未被代表的处理版本。以本书中讨论的因果关系概念为基础的、关于通过网络和同伴效应进行相互作用的研究越来越多。最后,尽管我们将本书设计为理论严密且有原则的著作,但我们专注于实际而不是数学结果,本书包括使用真实数据集的详细应用,以符合我们的目标读者,即应用领域的研究人员的需要。
|