本文为“格致方法·社会科学研究方法译丛”新作《定量研究中的稳健性检验》的中文版推荐序,作者为复旦大学特聘教授、教育部“长江学者”特聘教授唐世平。
对于任何一位刚开始阅读定量实证研究的社会科学学生来说,他或她的第一印象之一都是:哇!这么多回归结果表格和模型!接下来的问题是:这么多回归结果表格和模型都是干什么的?哦,作者说这些不同模型都是“稳健性检验”。那是不是“稳健性检验”越多,就意味着文章的实证结果更可靠呢?
而对于任何一位已经学习了一定的定量研究技巧并且运用定量分析来获得实证结果并尝试投稿的社会科学的学生或者学者来说,他们碰到的最多的审阅的意见估计是:(1)自变量和因变量之间可能有(很强)的内生性呀?这里面的内生性怎么解决啊?(2)作者应该做更多的“稳健性检验”。对于第一个意见,大部分人的反应估计是:我们已经很努力了,但是面对观察数据,完全解决内生性几乎是不可能的啊!对于第二个意见,大部分人的反应估计是近乎:天哪!你站着说话不腰疼啊!你知道我们已经做了多少“稳健性检验”了吗?我们已经跑了成千上万个回归模型!再让我们做更多的多少“稳健性检验”,你还让不让人活了啊(绝望的样子)?!之后,可能还有一句不能说的大实话:我们放出来的结果是我们能够获得的最漂亮的结果了啊!P值始终小于0.05,嘿嘿!
上述的假想对话并非空穴来风:它们都是众多学生、学者和我本人的经验。在这些问题的背后,其实是两个问题:(1)“稳健性检验”到底为了什么?(2)什么才是正确或至少合适的“稳健性检验”?
而在绝大部分关于定量实证研究的教科书或者工具书中,却几乎不涉及这两个问题。绝大部分关于定量实证研究的教科书或者工具书讨论的都是模型的原理和基本操作。也就是说,它们告诉我们前面的50步,可是后面的50步(即获得可靠的实证结果,或许能发表)却一笔带过,甚至不提及。
于是乎,许多从事定量实证研究的社会科学学生和学者就认为:只要是不同的回归模型,就都算是“稳健性检验”。而如果跑了上百个模型,实证结果都屹立不倒(“始终显著,至少两颗星!”),那文章的实证结果就等于通过了很多“稳健性检验”,因此也就是非常可信的了。
很不幸,因为不同模型意味着不同的假设,不同的变量。而特别是变量一多(甚至只增加一个变量),变量之间的相互作用的可能性就增加。而如果不仔细考虑这些变量之间的关系,则这些增加了(控制)变量的模型可能是不成立的,甚至是完全误导性的。
因为这些新加入的(控制)变量可能是自变量和因变量之间的“中介变量”(intervening variable)、“调节变量”(moderating variable)、“干扰变量”(confounding variable)、 “竞争性解释变量”(competing explanatory variable),甚至就是自变量或者因变量的另一个度量。而如果不能大致想清楚控制变量和自变量或者因变量之间的关系,许多稳健性检验模型就等于是“垃圾桶回归”(garbage can regression)。这样的 “稳健性检验”不能增加我们对某些实证结果的信心:它们只是为了发表文章的形式主义。
由诺伊迈耶和普吕佩尔合著的这本书(Neumayer and Plümer,2017)是极少数只讨论“稳健性检验”的参考书之一。本书最重要的优点就是告诉我们,对实证结果的不同疑虑需要不同的“稳健性检验”,而这些“稳健性检验”背后的大致原理是什么。
他们的核心出发点是:因为我们不知道我们的定量模型是否正确(我们永远也不可能知道),因此,我们必须用“稳健性检验”去尽可能排除我们的模型是(完全)不正确的可能性。换句话说,面对“模型的不确定性”(model uncertainty),“稳健性检验”是为了表明我们的定量模型是“valid”(成立的),因此,我们获得的“因果推断”(causal inference)应该是比较的可靠的(reliable)。而要想达成这样的结果,我们必须在条件允许的情况下,尽可能做好的“稳健性检验”。
作为一本基础性的参考书,这本书让我们对八大类的“模型的不确定性”(model uncertainty)有一个的基本了解,并且对如何面对这些“模型的不确定性”有一个基本的指南。
因此,我第一次看到这本书时,就觉得本书是一部非常有用的参考书,并且在博客上推荐了一下。没想到格致出版社的编辑唐彬源先生一下子就认真了,组织了人手翻译。非常感谢唐彬源编辑,以及两位译者(韩永辉、谭锐)的辛勤劳动。
|