摘要:上篇我们介绍了风暴统计平台线性回归的使用。此模块常用在影响因素研究中,即探讨多个X与Y的关联,对所有自变量"一视同仁"。
上篇我们介绍了风暴统计平台线性回归的使用。此模块常用在影响因素研究中,即探讨多个X与Y的关联,对所有自变量"一视同仁"。
Zstats教程(5):相关与线性回归方法
除此之外,还有焦点因素研究,即重点关注某一个X与Y的关联,将其他变量作为混杂因素纳入分析。为了避免X与Y关联程度收到其他因素干扰,就需要控制混杂。
关于混杂偏倚,有一篇详细的推文介绍,大家感兴趣可以了解一下。
混杂偏倚介绍
风暴统计控制混杂模块同样用到了回归分析,不过研究目的不同,结果的呈现方式有所不同。平台分为了单模型法、多模型法。下面我们进行详细的介绍。
即单模型法,首先选入我们的因变量(必须为连续变量)与焦点暴露因素。
接着是潜在混杂变量筛选设置。
支持根据单因素回归分析筛选变量(推荐)或自定义。在这里选入的变量将会与焦点暴露因素一起开展单因素回归。
然后是多因素回归自变量筛选设置。决定了上一步选入的协变量,P值小于多少会进入多因素回归。
一般为0.05,当进入多因素回归的变量过少时,也可以放宽要求,0.1,0.2也是可以的。当选择"不限制"时,所有协变量都会进入多因素模型。
最后,"点击分析"即可得到我们的回归分析三线表。
结果解读:
在焦点因素研究中,我们仅关注焦点暴露的回归结果。如本例中,在控制年龄、性别、种族、炎症指数、饮酒、心血管病的影响后,焦点暴露维生素D对骨密度的影响不具有统计学差异(P=0.087)。
即多模型法。第一步也是选入我们的因变量(必须为连续型)与焦点暴露。
接着点击"增加回归模型",模型1就是我们的单因素模型,因此我们直接开始选择模型2的协变量,推荐使用自定义,多个模型逐个调整变量。
这里我们模型2先校正性别、年龄、种族(常见的人口学变量),接着继续点击"增加回归模型"。
前面模型调整的变量会自动顺延至后面的模型。模型3调整其他混杂因素后,如需继续增加模型,可继续点击”增加回归模型“,最多可增至模型5。
完成后"点击分析",右侧会给出三线表结果,与单模型法不同的是,结果仅提供了焦点暴露的结果,更加简洁明了。
结果解读:
多模型结果中,以最后一个模型的结果为准。如本例中,在控制年龄、性别、种族、炎症指数、饮酒、心血管病的影响后,焦点暴露维生素D对骨密度的影响不具有统计学差异(P=0.087)。
完成全部分析后,可以调整小数位数,默认情况下,P值保留3位小数,其他保留2位小数。
最后下载三线表格,支持excel版与word版!
单模型法与多模型法控制混杂偏倚的主要内容就介绍完毕了,下面对平台提供的R语言线性回归结果复现(主要用于残差与共线性诊断)做一个拓展说明:
1.R语言的原始输出结果
风暴统计是基于R语言搭建的,这里给出了原始的输出结果,像是95%置信区间是没有直接给出的,需要根据Estimate、Std.Ettor自行计算。
2.回归分析残差图
①Residuals vs Fitted(残差图域拟合图):判断残差是否具有线性关系。一般散点随机分布在虚线上下,认为自变量和因变量之间是线性关系。
②Q-Q Residuals(残差Q-Q 图):判断残差是否呈正态分布。若符合正态分布,则散点会在比较好的集中在对角线上。
③Scale-Location(位置尺度图):判断残差是否符合方差齐性原则。若符合方差齐性原则,则黑色散点会随机分布在水平线两侧。
④Residuals vs Leverage(残差与杠杆图):判断离群点、高杠杆值与强影响点。
3.方差膨胀因子VIF
这里可以用于模型中自变量间共线性的诊断。优先根据修正后的值(GVIF^(1/(2*Df)))决策,尤其是对分类变量。
≥2:需警惕共线性(保守阈值)
≥3.16(即√10):明确存在共线性
以上就是线性回归控制混杂偏倚模块全部内容的介绍说明了。
来源:统计医研库