数据分析 36 计(8):断点回归 (RDD) 评估产品设计效果

Tian
Tian
Tian
33
文章
7
评论
2021年2月18日16:01:18
评论
627 1341字阅读4分28秒
摘要

断点回归设计可以控制观察到的混杂因素,也可以控制未观察到的混杂因素的影响。

1. 断点回归

断点回归设计可以控制观察到的混杂因素,也可以控制未观察到的混杂因素的影响,即可以防止遗漏变量带来的问题,除了工具变量和随机分组外,它应该是唯一的一个可以控制未观察到混杂因素的研究方法。它好在能做到局部随机 ( Sharp RD 的话)。举个例子:

假定今年有一种录取考试,分数公布之后,暨大决定只录取 2200 分以上的考生,2200 分以下的决不录取。那么当你的分数大于 2200 分时,你进入暨大的概率就为 1 ,否则为 0 。Score = 2200 处形成一个跳跃点 cut-off point(如图所示),Score 被叫做 running variable,forcing variable。

数据分析 36 计(8):断点回归 (RDD) 评估产品设计效果

断点回归设计的原理就是,在个体(考生)不能完全操控且不能预知暨大录取分数线的时候,暨大随机决定一个分数的情况下,我们可以把接近2200分(断点)附近的考生看成是几乎一样的个体,因为考2199分的同学和考2201分的同学基本上是没有差别的(随机),表现在: background characteristics should be similar near 2200 and the other variables cannot have a threshold in 2200。那么暨大决定的2200分数线就是一个外生的试验控制。相当于把2200分附近的同学随机的分配到:{读暨大,不读暨大}。

断点回归设计的最大缺点在于:外部有效性很弱。在实证分析的因果推论中,有外部有效性(external validity)和内部有效性(internal validity)两个概念。具有内部有效性是指:在你解释或研究的样本内部,很好的解决了内生性问题,得到了样本内的准确估计。外部有效性就是把估计的这个结果往外推广是遇到的问题。比如:政府实行最低工资标准制度,在样本中,估计出来了 A 县因为提高最低工资标准 100 块钱而使得失业率上升了 0.1%。外部有效性就是,把 treatment effect  "0.1%" 推广到全国是不是结果依然稳健适用,推广到全世界呢?因为断点回归只能做到局部(断点附近)随机,它能准确推断出来的也就是这断点附近人群的政策效果。要把局部政策效果外推,将非常困难。

2. 产品设计效果评估

(案例中的需求和数据已脱敏)比如知乎最近开始在作者主页上展示徽章,我们想知道这个功能到底会产生什么样的影响。(假设现在功能已经上线,不能进行 A/B 测试了)。更具体的,我们想知道在主页展示徽章这个功能会不会给用户增加更多的关注者?

假定 2013 一整年中获得赞数超过 5000 的用户有资格获得徽章。那么断点回归的关注点是那些刚刚好获得徽章(即有 5000 个赞)和那些差一点够资格(获得 4999 个赞)的用户,他们之间的差异或多或少是随机的。我们可以用这个阈值来估计因果效应。比如说,在下面这个虚构的图表中,在 5000 赞这个界限处的不连续性表明,获得勋章的作者平均会多大约 100 多个粉丝。说明在 5000 赞后给予徽章的产品设计给创作用户带来了更多的粉丝数量。

数据分析 36 计(8):断点回归 (RDD) 评估产品设计效果

3. 学习资料

Stata 分析 RDD 全过程:
不可不知的断点回归 (RDD)经典案例和实用技能
R 相关分析包
博客
书籍推荐:
因果推断 RDD《Causal Inference-Measuring the Effect of X on y》 
weinxin
微信公众号
微信公众号搜索关注「DataGo 数据狗」 数据分析从 0 到 1 再到 2 。
Tian
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: