数据分析 36 计(16):和 A/B 测试同等重要的观察性研究:群组研究 VS 病例-对照方法

Tian
Tian
Tian
33
文章
7
评论
2021年2月26日21:03:12
评论
449 3423字阅读11分24秒
摘要

群组研究(cohort study)和 病例-对照研究(case-control study)是观察研究的两种主要类型,主要用于医学判断评估疾病和条件暴露之间的关联,同时在商业分析中可用于探究影响因素和影响程度。

1. 群组研究 VS 病例-对照研究

观察性研究是研究设计中的重要类别,目前能准确得出因果关系的方法主要是随机分组实验设计方法,即我们常说的 A/B 测试,对于无法实现随机分组实验的场景,可以通过观察性研究得出结论。观察性研究可能是解决因果关系这类问题的下一个最佳方法。之前在这里已经总结了常用的观察性研究方法:一图讲清因果推断方法论,无法 AB 测试时分析的万能钥匙

数据分析 36 计(16):和 A/B 测试同等重要的观察性研究:群组研究 VS 病例-对照方法

图1 分析研究方法框架

 

群组研究(cohort study)和 病例-对照研究(case-control study)是观察研究的两种主要类型,主要用于医学判断评估疾病和条件暴露之间的关联。其中群组研究又分为前瞻性群组研究和回顾性群组研究。前瞻性群组研究是指研究开始时,暴露因素已经存在,但研究结果还未出现,需要前瞻随访观察一段时间才能得到,即从现在追踪到未来。回顾性群组研究是指研究开始时暴露和疾病均已发生,其特点是追溯过去历史资料确定暴露于非暴露组,然后追查到现在的发病情况。下图展示了几个观察性研究的时间段和研究方向:

数据分析 36 计(16):和 A/B 测试同等重要的观察性研究:群组研究 VS 病例-对照方法

图 2 观察性研究的时间段和研究方向

群组研究(cohort study)是将某一特定人群按是否暴露于某可疑因素或暴露程度分为不同组,追踪观察两组或多组成员结果(如疾病)发生的情况,比较各组之间结果发生率的差异,从而判定这些因素与该结果之间有无因果关联及关联程度的一种观察性研究方法。即由因及果,从因素追踪结果。

病例对照研究(case-control study)利用已患病(或相关症状)的病人,再与没有患病的人作出比较,以找出一些病症的特征,即从结果的不同分为不同组,比较某因素导致该结果的可能性,由果及因,先确定结果,再找之前的因素。

数据分析 36 计(16):和 A/B 测试同等重要的观察性研究:群组研究 VS 病例-对照方法

图 3 群组研究和病例对照研究的区别

 

2. 统计学中常用的 RR、OR、HR 的含义及区别

相对风险率 Risk Ratio (RR)

RR = 暴露组的发病率/非暴露组的发病率,它是反映暴露与发病(死亡)关联强度的指标。通常,暴露可以指危险因素,比如吸烟、高血压,也可指服用某种药物。而事件可以是疾病发生,比如肺癌、心血管病,也可指服药后的治疗效果。RR 表明暴露组发病或死亡的危险是非暴露组的多少倍。RR 值越大,表明暴露的效应越大,暴露与结局关联的强度越大。

暴露因素

患肺癌

未患肺癌

抽烟者

a=20

b=80

非抽烟者

c=1

d=99

其中吸烟者患肺癌的概率为 20%,非吸烟者患肺癌的概率为 1%。这种情况在上边的 2×2 表中表示。这里的 RR=(a/(a+b))/(c/(c+d)),相对风险经常用于二元结果的统计分析,其中感兴趣的结果具有相对低的概率。因此,它通常适用于临床试验数据,用于比较未接受新药物治疗(或接受安慰剂)的人群与接受既定(标准治疗)治疗的人群发生疾病的风险。或者,它用于比较接受药物的人产生副作用的风险与未接受治疗(或接受安慰剂)的人相比。它特别有吸引力,因为它可以在简单的情况下手工计算,但也适用于回归建模,通常在泊松回归框架中。在实验组和对照组之间进行简单比较:

  • RR = 1 意味着两组之间的风险没有差异。

  • RR <1 表示实验组中发生的事件不太可能发生在对照组中。

  • RR> 1 表示事件更可能发生在实验组而不是对照组。

优势比 Odds Ratio (OR)

优势比用于反映病例与对照在暴露上的差异,从而建立疾病与暴露因素之间的联系。

OR=(病例组暴露人数/非暴露人数)/(非病例组暴露人数/非暴露人数),适用于 retrospective cohort(回溯性研究)。

示例:OR 的计算公式是: OR=a/c/(b/d)=ad/cb,OR 的三个要素:

  • OR 的值,和 RR 判断标准一致。

  • P_value <0.05 时两组的暴露史比例差异显著,提示暴露可能与疾病有联系。

  • 计算OR 95%可信限(confidence interval)可由 R 软件 fisher.test() 函数计算出这三个值。

OR 与 RR 的区别:

1、RR 的计算需要使用发病率,因此群组研究、随机对照试验等前瞻性研究均可使用 RR;但若是开展回顾性研究(如病例-对照研究),只能根据研究对象的结果状态分组,无法直接计算暴露人群和非暴露人群的发病率,这种情况则需要使用 OR。

2、公式不难看出,两者的差异主要来源于分母,即 a/(a+b) 和 a/b 的区别,因此,若a数值较小,则 a/(a+b)≈a/b ,也就是说,当该疾病发生率较低时(罕见病),其 RR 值和 OR 值的大小是近似的。因此这类疾病,若无法实施群组研究,则可采用病例-对照研究中的 OR 值替代 RR 值。

风险比 Hazard Ratio(HR)

HR =暴露组的风险函数 h1(t) /非暴露组的风险函数 h2(t)

  • t 指在相同的时间点上

  • 风险函数指危险率函数、条件死亡率、瞬时死亡率。

  • Cox 比例风险模型可以得到,HR要用于生存分析。

HR 与 RR 的区别

1. 两者均用于前瞻性研究,多数认为 HR 与 RR 意思一样,但从计算公式可看出,HR 还考虑了时间因素,换言之,包含了时间效应的 RR 就是 HR;

2. 从终点时间的角度来看,也可以这样理解,RR 考虑了终点事件的差异,而 HR 不仅考虑了终点事件的有无,还考虑了到达终点所用的时间及截尾数据。

3. 分析案例

上面主要是从医学概念上介绍了两个观察性研究的原理,对于该方法如何使用到产品效果分析和影响因子分析中,这里主要用两个案例说明:

群组研究

背景:某在线学习类产品同时上线三个功能,且三个功能都可能对课程完成率有影响,现在需要分析三个功能哪个更有可能导致了课程完成率的出现。

方法:这里用相对风险率 RR 来分析。比如功能1的相对风险率 RR=0.70/0.41=1.70。通过上面的方法分别算出 3 个功能的相对风险率 RR,汇总如下:

数据分析 36 计(16):和 A/B 测试同等重要的观察性研究:群组研究 VS 病例-对照方法

图 4 群组研究案例

如果特定的变量与结果之间没有关联,那么我们期望 RR = 1.0。这里可以看到功能 3 的 RR 最大,且 95%的置信区间的最小值都在 2.74,且 p 值显著,说明这里由功能 3 导致课程完成率上升的事件不太可能是随机误差导致的结果,即功能 3 最有可能导致完课效果变好。

病例-对照研究

背景:目前有性别、过去成绩和过去学习时长三个变量可能会影响到用户课程完成率,判断影响用户是否完成课程的因素。

方法:这里用 Logistic 回归分析,回归结果的回归系数和 OR 值来定量说明结论。拟合一个包含性别、成绩、学习时长的 Logistic 回归,模型为 ln(p/(1-p) = β0 +β1* grade+β2* female+β3* time,回归结果如下(结果经过编辑):

系数β

P-value

grade

0.122

0.000

female

0.979

0.020

time

.0590

0.026

截距

-11.770

0.000

该结果说明:

  • 性别:在其他两个变量都相同的条件下,女性(female=1)完课的几率(odds)是男性(female=0)的 exp(0.979) = 2.7倍,或者说,女性的几率比男性高 167%。

  • 成绩:在性别和学习时长都相同的条件下,成绩每提高 1,完课的几率提高 13%(因为 exp(0.122) = 1.13)。

  • 这里假设的是变量间没有交互效应,所谓交互效应,是指一个变量对结果的影响因另一个变量取值的不同而不同。但是对于交互效应存在时,比如性别和成绩有交互效应时,我们可以分别拟合两个方程,然后分别解释。

参考资料:

  • https://en.wikipedia.org/wiki/Cohort_study

  • https://api.center.medsci.cn/learn/share-news/7a70e1068f5/17490092

  • https://zhuanlan.zhihu.com/p/23176211

  • https://zhuanlan.zhihu.com/p/23268612

  • https://zhuanlan.zhihu.com/p/24236035

weinxin
微信公众号
微信公众号搜索关注「DataGo 数据狗」 数据分析从 0 到 1 再到 2 。
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: