Loading... # 相关和因果 还记得之前在学习频繁模式挖掘(Frequent Pattern Mining)的时候,老师讲过一个啤酒和尿布的例子,观察发现很多顾客在买尿布的时候同时也购买啤酒,这样超市把尿布和啤酒放在一起就可以提高销售额。这是一个典型的相关关系的例子,本质上它体现出啤酒销售数量的变化,和尿布销售数量的变化呈现一个强相关性 在生活中,我们还可以看到很多这样的例子,比如我朋友推荐的一个公众号“巴伦周刊”发过一篇文章《董事会里女性越多,公司赚钱越多》,这个标题里就蕴含着董事会女性数量和公司利润之间的相关关系 在学术界,也有不少和相关关系相关的文章,比如有作者在《新英格兰医学杂志》上发表过一篇文章,说人均每年的巧克力消费量,和每一千万国民中诺贝尔奖得主数量存在强相关性 相关性能帮助我们发现事物之间的联系,但相关性并不等于因果性,如果盲目地给两者划等号,我们很有可能就陷入错误的归因逻辑里了。我们可以举一些例子: - 得肺癌的人里多数爱吸烟,没有得肺癌的人不爱吸烟->**肺癌是导致病人爱吸烟的原因** - 自20世纪50年代以来,大气中的二氧化碳浓度和肥胖水平都在上升->**二氧化碳浓度上升是使人肥胖的原因** - 华盛顿指挥官队的比赛结果和总统选举的相关性:当华盛顿指挥官队获胜时,现任总统的政党保留总统职位;当华盛顿失败时,反对党获胜。这一度被用作预测选举结果的风向标,并且在1940年至2000年的每次选举中都是如此->**华盛顿指挥官队的比赛结果是决定现任总统职位能否保留的重要原因** 从上面的例子我们看到了既真实又可笑的谬误,当然,我们仅仅是在指出相关性和因果性并不能直接划等号,**存在因果关系说明两者存在相关关系,但存在相关关系并不意味着它们是因果关系**。 相关性和因果性所要发挥的作用是不一样的,以互联网产品的会员续费率作为例子: - 相关性分析:我们可以训练续费预测模型,帮助业务精准识别哪些用户是续费的高潜力用户,也可以帮助业务通过行为和画像分析理解续费用户的特征。一言以蔽之,相关性分析的作用主要在理解和预测 - 因果性分析:我们需要通过一些措施提高会员续费率,这其中我们的可能手段有:1)针对最不愿意续费的用户做干预,提升续费率;2)找到能够通过干预手段带来最大续费率提升的群体,而这些分析,我们是没有办法通过相关性来解决的;3)已知某些干预手段,想要知道这些干预手段是否能带来续费率的提升 # Rubin因果模型(Rubin Causal Model) 关于因果模型,常见的Rubin因果模型(也称RCM)和结构因果模型,针对因果推断的数学机理,感觉Rubin因果模型更为适合。Rubin因果模型,是一种基于潜在结果框架的因果统计分析方法,最早Jerzy Neyman在他1923年的硕士论文里针对随机实验提出了潜在结果框架,后续Rubin将其扩展到了观测性研究的分析中,形成了一般分析因果的重要框架 ## 潜在结果 假如有一个人发烧了,他可以选择吃阿司匹林,或者不吃阿司匹林(服用阿司匹林是我们的干预手段),我们观测的结果是三天后是否还发烧。对于这个个体而言,存在两种结果:接受干预后的效果和未接受干预时的效果,但这两种结果没办法同时存在,因为我们没办法在同一个时间点,对同一个个体,做出不同的干预手段,并观察到效果。也正因如此,我们把这种结果称之为**潜在结果** ## 因果推断 我们将前面服用阿司匹林的例子用一个表来表示,可得 |个体$i$|$Y_{i}(0)$|$Y_{i}(1)$|观测结果($Y_{i}^{obs}$)|是否服用阿司匹林($W_{i}$)| |-|-|-|-|-| |1|?|1|1|1| > 假定: $Y_{i}(0)$和$Y_{i}(1)$分别表示第$i$个体未服用阿司匹林和服用阿司匹林的情况下,三天后是否退烧,其中$Y_{i}=1$表示个体已经退烧,$Y_{i}=0$表示个体仍在发烧 从图上我们可以直观看出在**个体维度**上,我们无法衡量因果效应$Y_{i}(1)-Y_{i}(0)$,因为不管怎么做,我们都**缺失**一部分潜在信息,我们能观测到的,只可能是 $$ \begin{align*} Y_{i}^{obs} = Y_{i}(W_{i})= W_{i}Y_{i}(1) + (1-W_{i})Y_{i}(0) = \left \{ \begin{array}{lr} Y_{i}(0) & \mbox{if } W_{i}=0\\ Y_{i}(1) & \mbox{if } W_{i}=1\\ \end{array} \right. \end{align*} $$ 在群体维度上,我们却可能能做到因果效应的估算。我们可以假定存在很多相似的个体(样本量足够大,可以趋近于无限多),这些人足够的相似,以至于服用阿司匹林的效果和未服用阿司匹林的效果基本上是一致的,那么就可以将这些个体随机分配成两个组,一组服用阿司匹林,另一组不服用阿司匹林,之后对比两组的差异,就可以表示为服用阿司匹林带来的效果。从数学上看,我们期望能够计算出 $$ \begin{align*} \tau &= E[Y_{i}(1)-Y_{i}(0)]\\ \end{align*} $$ ## 因果效应的可识别性 为了估计因果效应,我们需要一系列的假设和限制,下面是在因果推断里常用的一些假定 ### SUTVA假设(No interference&Consistency) SUTVA假设(THE STABLE UNIT TREATMENT VALUE ASSUMPTION):**任何个体的潜在结果都不随分配给其他个体的处理变化而变化。另一方面,每一种处理水平不存在任何一种可能会导致不同的潜在结果的不同版本/形式** SUTVA假设包含了两个要素: - 无干扰性(No interference):每个个体的潜在结果都不会受到其他个体接受的处理情况的影响,即个体之间是相互独立的,这里蕴含两点:1)其他个体是否接受处理,不会影响当前个体的的潜在结果2)其他个体的潜在结果,不会影响当前个体的的潜在结果 - 统一性(Consistency):对于同一个组,每个个体能过接受的处理水平是完全一致的 在部分情况下,SUTVA假设可能存在巨大挑战: - 在新冠期间的免疫接种中,个体免疫与不免疫的因果关系取决于其他人的免疫情况:如果其他人都已经用疫苗进行了免疫,其他人既不会得病也不会传播疾病,那么个体免疫就是多余的 - 学校课后辅导的效果衡量:被分配参加辅导计划以提高成绩的学生可能会与学校中未分配参加辅导计划的其他学生互动,进而影响到课后辅导的效果评估 - 其他可能的社交网络情形 对于上面的第二点,可以尝试将分析的个体维度放大,来弱化社交网络的的影响,比如分析可以在学校层面而不是个人层面的因果效应(学校与学校之间是相互独立的),而对于违反SUTVA假设的情况,目前还没有找到更令人满意的统计解决方案 ### 可忽略性(Ignorability/Unconfounded Assignment) 可忽略性表征的是在给定相同的协变量下,分配机制与个体的潜在结果无关,用数学形式表示为 $$ \begin{align*} Pr(W\mid X, Y(0), Y(1)) = Pr(W\mid X, Y^{'}(0), Y^{'}(1)) \quad \forall \quad W, X, Y(0), Y(1), Y^{'}(0), Y^{'}(1) \end{align*} $$ 如果分配机制是满足上述情况的,那么分配机制可以简化为$Pr(W\mid X)$ ### 正向性(Positivity/Probabilistic Assignment) 对于每一个个体,是否被分配到实验组的概率都介于0到1之间,不存在仅有对照组或仅有实验组的情况,用数学形式表示为 $$ \begin{align*} 0 < p(W \mid X, Y(0), Y(1)) < 1 \quad \forall \quad W, X, Y(0), Y(1) \end{align*} $$ ### 因果推断再论述 在有了以上假定的情况下,我们可以将前面关于平均处理效应的计算进行拆分: $$ \begin{align*} \tau &= E[Y_{i}(1)-Y_{i}(0)]\\ &= E[Y_{i}(1)]-E[Y_{i}(0)]\\ &= E[Y_{i}(1)\mid W_{i}=1]-E[Y_{i}(0)\mid W_{i}=0]\\ &= E[Y_{i}\mid W_{i}=1]-E[Y_{i}\mid W_{i}=0] \quad \mbox{(based on Ignorability)}\\ \end{align*} $$ 上述最后一个等式,即我们期望的结果,由该式我们便可以计算出在群体情形下的因果效应 # 总结 本次简单介绍了相关和因果的定义,以及在Rubin因果模型框架下的一般假设(SUTVA、Ignorability和Positivity),以及在该假设下的因果效应计算,如何在Rubin因果模型框架下分析随机化实验的因果效应,将在下一次讲解,个人认为,这是Rubin因果模型里最严丝合缝的一章 # 附录 ## Rubin教材中的符号标记 ### 基本符号 考虑一个有$N$个单位的总体。个体的特征由协变量$X$来表示,其中第$i$个个体的特征满足$X_{i}=(x_{i1}, \cdots, x_{ik})$,而$X=(X_{1}, \cdots, X_{n})^{T}$ 对于每个单位,还有一对潜在结果(potential outcomes)$(Y_{i}(1), Y_{i}(0))$,其中$Y_{i}(1)$表示在接受处理下的潜在结果。同时我们令$Y(1)=(Y_{i}(1), \cdots, Y_{i}(n))^{T}$, $Y(0)=(Y_{i}(0), \cdots, Y_{i}(0))^{T}$。 对于每个个体处理分配的结果,我们用$W_{i}$表示($W_{i} \in \{0, 1\}$),如果个体接受了处理,则$W_{i}=1$,同时我们令$N_{t}=\sum_{i=1}^{N}W_{i}$和$N_{c}=\sum_{i=1}^{N}(1-W_{i})$分别表示处理组和对照组的用户数,则有$N=N_{t}+N_{c}$ ### 观测结果 令实验中观测到的结果为 $$ \begin{align*} Y_{i}^{obs} = Y_{i}(W_{i})= W_{i}Y_{i}(1) + (1-W_{i})Y_{i}(0) = \left \{ \begin{array}{lr} Y_{i}(0) & \mbox{if } W_{i}=0\\ Y_{i}(1) & \mbox{if } W_{i}=1\\ \end{array} \right. \end{align*} $$ 未观测到的结果为 $$ \begin{align*} Y_{i}^{mis} = Y_{i}(W_{i})=(1-W_{i})Y_{i}(1) + W_{i}Y_{i}(0) \left \{ \begin{array}{lr} Y_{i}(1) & \mbox{if } W_{i}=0\\ Y_{i}(0) & \mbox{if } W_{i}=1\\ \end{array} \right. \end{align*} $$ ### 平均因果效应 我们用$\tau$来表示平均因果效应,对于有限总体,用公式表示为 $$ \begin{align*} \tau_{fs} = \frac{1}{N}\sum_{i=1}^{N}(Y_{i}(1)-Y_{i}(0)) \end{align*} $$ 如果我们对特定人群($x_{i}$)进行评估,则有限总体情形下的平均因果效应可以表示为 $$ \begin{align*} \tau_{fs}(x_{i}) = \frac{1}{N(x_{i})}\sum_{i: X_{i}=x_{i}}^{N}(Y_{i}(1)-Y_{i}(0)) \end{align*} $$ # 参考 [1] 董事会里女性越多,公司赚钱越多. 微信公众平台. (n.d.). https://mp.weixin.qq.com/s/TVDH8Em7V36zK5wLT2rjdQ [2] Messerli, F. H. (2012). Chocolate consumption, cognitive function, and Nobel laureates. N Engl J Med, 367(16), 1562-1564. [3] Imbens, G. W., & Rubin, D. B. (2015). Causal inference in statistics, social, and biomedical sciences. Cambridge University Press. 最后修改:2023 年 10 月 08 日 © 允许规范转载 打赏 赞赏作者 赞 0 如果觉得我的文章对你有用,请随意赞赏