Zstats教程(6):线性回归控制混杂偏倚

360影视 国产动漫 2025-04-09 15:03 6

摘要:上篇我们介绍了风暴统计平台线性回归的使用。此模块常用在影响因素研究中,即探讨多个X与Y的关联,对所有自变量"一视同仁"。


上篇我们介绍了风暴统计平台线性回归的使用。此模块常用在影响因素研究中,即探讨多个X与Y的关联,对所有自变量"一视同仁"。

Zstats教程(5):相关与线性回归方法

除此之外,还有焦点因素研究,即重点关注某一个X与Y的关联,将其他变量作为混杂因素纳入分析。为了避免X与Y关联程度收到其他因素干扰,就需要控制混杂。

关于混杂偏倚,有一篇详细的推文介绍,大家感兴趣可以了解一下。

混杂偏倚介绍

风暴统计控制混杂模块同样用到了回归分析,不过研究目的不同,结果的呈现方式有所不同。平台分为了单模型法、多模型法。下面我们进行详细的介绍。

即单模型法,首先选入我们的因变量(必须为连续变量)焦点暴露因素。

接着是潜在混杂变量筛选设置。

支持根据单因素回归分析筛选变量(推荐)自定义。在这里选入的变量将会与焦点暴露因素一起开展单因素回归。

然后是多因素回归自变量筛选设置。决定了上一步选入的协变量,P值小于多少会进入多因素回归。

一般为0.05,当进入多因素回归的变量过少时,也可以放宽要求,0.1,0.2也是可以的。当选择"不限制"时,所有协变量都会进入多因素模型。

最后,"点击分析"即可得到我们的回归分析三线表。

结果解读:

在焦点因素研究中,我们仅关注焦点暴露的回归结果。如本例中,在控制年龄、性别、种族、炎症指数、饮酒、心血管病的影响后,焦点暴露维生素D对骨密度的影响不具有统计学差异(P=0.087)。

即多模型法。第一步也是选入我们的因变量(必须为连续型)焦点暴露

接着点击"增加回归模型",模型1就是我们的单因素模型,因此我们直接开始选择模型2的协变量,推荐使用自定义,多个模型逐个调整变量。

这里我们模型2先校正性别、年龄、种族(常见的人口学变量),接着继续点击"增加回归模型"

前面模型调整的变量会自动顺延至后面的模型。模型3调整其他混杂因素后,如需继续增加模型,可继续点击”增加回归模型“,最多可增至模型5

完成后"点击分析",右侧会给出三线表结果,与单模型法不同的是,结果仅提供了焦点暴露的结果,更加简洁明了。

结果解读:

多模型结果中,以最后一个模型的结果为准。如本例中,在控制年龄、性别、种族、炎症指数、饮酒、心血管病的影响后,焦点暴露维生素D对骨密度的影响不具有统计学差异(P=0.087)。

完成全部分析后,可以调整小数位数,默认情况下,P值保留3位小数,其他保留2位小数。

最后下载三线表格,支持excel版与word版!


单模型法与多模型法控制混杂偏倚的主要内容就介绍完毕了,下面对平台提供的R语言线性回归结果复现(主要用于残差与共线性诊断)做一个拓展说明

1.R语言的原始输出结果

风暴统计是基于R语言搭建的,这里给出了原始的输出结果,像是95%置信区间是没有直接给出的,需要根据Estimate、Std.Ettor自行计算。

2.回归分析残差图

Residuals vs Fitted(残差图域拟合图):判断残差是否具有线性关系。一般散点随机分布在虚线上下,认为自变量和因变量之间是线性关系。

Q-Q Residuals(残差Q-Q 图):判断残差是否呈正态分布。若符合正态分布,则散点会在比较好的集中在对角线上。

Scale-Location(位置尺度图):判断残差是否符合方差齐性原则。若符合方差齐性原则,则黑色散点会随机分布在水平线两侧。

Residuals vs Leverage(残差与杠杆图):判断离群点、高杠杆值与强影响点。

3.方差膨胀因子VIF

这里可以用于模型中自变量间共线性的诊断。优先根据修正后的值(GVIF^(1/(2*Df)))决策,尤其是对分类变量。

≥2:需警惕共线性(保守阈值)

≥3.16(即√10):明确存在共线性

以上就是线性回归控制混杂偏倚模块全部内容的介绍说明了。




来源:统计医研库

相关推荐