统计学中HR(Hazard Ratio,风险比)是生存分析中常用的指标,用于比较两组人群(如实验组与对照组)在特定事件(如疾病复发、死亡等)发生风险上的差异,其计算基于生存数据中的“风险函数”(Hazard Function,h(t)),表示在t时刻尚未发生事件的个体,在单位时间内发生事件的概率,HR的计算过程涉及生存数据的整理、风险函数的估计以及比值的计算,具体步骤如下:
生存数据的整理与描述
生存数据通常包含两个关键变量:事件发生时间(time)和事件指示变量(event,1表示事件发生,0表示删失),在计算HR前,需对数据进行整理,包括:
- 数据分组:根据研究目的将数据分为两组或多组(如接受治疗组和安慰剂组)。
- 描述性统计:计算各组的生存率(Survival Rate,S(t)),即个体在时间t时仍未发生事件的概率,生存率可通过Kaplan-Meier法估计,其公式为: [ S(t) = \prod_{t_i \leq t} \left(1 - \frac{d_i}{n_i}\right) ] (t_i)为事件发生时间点,(d_i)为该时间点发生事件的例数,(n_i)为该时间点处于风险的例数。
风险函数的估计
风险函数h(t)表示在t时刻瞬时发生事件的概率,其估计需通过生存数据中的“风险集”(risk set)实现,具体方法包括:
- 乘积极限法(Kaplan-Meier法):用于估计生存率,间接反映风险变化。
- 寿命表法:适用于分组数据,通过区间内事件发生数和删失数计算风险。
- Cox比例风险模型:半参数模型,可直接估计HR,无需假设风险函数的具体形式,模型表达式为: [ h(t|X) = h_0(t) \exp(\beta X) ] (h_0(t))为基准风险函数,(X)为分组变量(如0=对照组,1=实验组),(\beta)为回归系数,HR = (\exp(\beta))。
HR的计算步骤
单因素分析(Log-rank检验法)
当仅比较两组时,可通过Log-rank检验计算HR,步骤如下:
-
构建列联表:将每个事件发生时间点作为分层,统计两组在该时间点的预期事件数(E)和实际事件数(O)。
时间点 组别 风险集大小 实际事件数 预期事件数 t1 对照组 100 10 5 实验组 100 0 5 t2 对照组 90 15 5 实验组 100 15 5 -
计算总预期事件数:将各时间点两组的预期事件数相加,得到对照组(E1)和实验组(E2)的总预期事件数。
-
计算总实际事件数:分别为两组(O1和O2)。
-
计算HR:通过Cox模型的指数形式或直接比值计算: [ HR = \frac{O_2 / E_2}{O_1 / E_1} ] 若HR=1,表示两组风险无差异;HR>1表示实验组风险更高;HR<1表示实验组风险更低。
多因素分析(Cox回归模型)
当存在多个协变量(如年龄、性别)时,需通过Cox回归控制混杂因素:
- 拟合模型:将分组变量(X)和其他协变量纳入模型,估计回归系数(\beta)。
- 计算HR:HR = (\exp(\beta)),并计算95%置信区间(CI): [ 95\% CI = \exp(\beta \pm 1.96 \times SE(\beta)) ] SE((\beta))为(\beta)的标准误,若95% CI不包含1,则HR具有统计学意义。
HR的假设与注意事项
- 比例风险假设:Cox模型要求HR在研究期间保持恒定,可通过Schoenfeld残差检验验证。
- 删失数据的处理:删失数据需随机分布,否则可能引入偏倚。
- 样本量要求:需保证足够的事件数(50),以确保HR估计的稳定性。
实例说明
假设研究某药物对肿瘤患者生存期的影响,数据如下:
- 对照组(n=100):中位生存期20个月,40例死亡。
- 实验组(n=100):中位生存期30个月,30例死亡。 通过Cox回归得到(\beta = -0.5),则: [ HR = \exp(-0.5) = 0.61 ] 95% CI为(0.45, 0.82),表明实验组死亡风险降低39%。
相关问答FAQs
Q1:HR与RR(相对危险度)的区别是什么?
A1:RR用于队列研究或横断面研究,比较两组事件发生率的比值;HR用于生存分析,考虑时间因素和删失数据,反映瞬时风险比,RR假设风险恒定,而HR通过生存时间动态估计风险,适用于随访时间不同的研究。
Q2:如何判断HR的统计学意义?
A2:HR的统计学意义通过假设检验判断,通常报告P值和95% CI,若P<0.05或95% CI不包含1,则认为HR与1的差异具有统计学意义,表明两组风险存在显著差异,需结合效应量(如HR=0.7)和临床意义综合解读。