摘要:理论上Deepseek 能够完成任何一种统计分析。但现阶段,和Deepseek对话还是需要一些统计学常识。如果统计学较薄弱的同学,可以在www.mstata.com上使用Deepseek的统计学插件来完成分析:Mstata Deepseek 统计学插件可以同步
理论上Deepseek 能够完成任何一种统计分析。但现阶段,和Deepseek对话还是需要一些统计学常识。如果统计学较薄弱的同学,可以在www.mstata.com上使用Deepseek的统计学插件来完成分析:
Mstata Deepseek 统计学插件可以同步运行 Deepseek生成的 R 代码;
直接出统计表、统计图;
提供大量已经验证过的统计分析 prompt 示例模版
Logistic 回归示例:
DeepSeek 可以做一切统计学分析。但是很多人不会用,因为撰写提示词 prompt需要一定的统计学知识,因此需要一些模板来指导,通过本公众号,您能学习到一些提问的技巧,同时,很多第三方的软件已经提供了各种统计方法的prompt提问模板,同时可以自动完成统计分析(不像原版 deepseek 只给出 R 代码,自己本身并不运行)。
增加了 DeepSeek 统计学插件,导入自己的数据集,让大家和 DeepSeek 对话完成统计分析时,同时调用后台的 R 软件进行实时分析,并将分析结果整理输出为 word 文档。
本公众号现在分期介绍一些实用的 DeepSeek 的 prompt 模板。第3期介绍如何一句话完成各种 Logistic 回归:
, 左上角选择进入Mstata 医学统计机器人,菜单选择“数据准备”,导入数据后,选择“定义字段”, 正确定义好连续性变量和分类变量后,点击 “deepseek 自动统计分析工具” 菜单,进入页面并选择一个线性回归的prompt 模板:
Logistic 回归可能有几种情况:
1)一个 Y (二分类)和 一个 X 的简单 Logsitic 回归;;
2)一个 Y (二分类) 和 多个 X1,X2,X3 等;也就是多因素的 Logistic 回归分析,或者条件 Logistic 回归等,可以直接建模做回归,也可以先做多重共线性检验;也可以先做变量筛选,从一大堆变量中筛选出一些变量来建模;
3)自变量 X 为连续性变量时,可以先做标化,再进行回归分析,也可以离散化成分类变量,再做线性回归;
4)自变量 X 为分类变量时,一般软件默认拆分成哑变量。将其中一个亚组设置为参照组,其他亚组分别和这个参照组比较;另外,也可以采用事后检验post hoc分析,自行设置亚组之间如何两两比较,以及用不同的方法校正P值;
5)Logistic 回归可以衍生出一些其他分析,例如 ROC 曲线、概率曲线。另外做预测的话还可以衍生出 nomogram, calibration 曲线,DCA 曲线等等。
6) 多模型比较
目前如果用简单的命令进行线性回归,Deepseek 通常会采用默认最简单的方法进行分析,如果要实现上述 6 点要求,需要将其在 prompt 中陈述出来,否则 Deepseek 本身不会执行上述 6 点要求的细节部分。这也是目前 Deepseek 没有完全淘汰统计师这个职业的原因。
下面是多因素 Logistic 回归的具体示例:
下拉到 DeepSeek 对话窗口:
粘贴 prompt 命令:
以'Objective.Response'为因变量(二分类),'Treatment','Extent'作为自变量做 Logistic 回归;并做模型的ROC曲线,并添加AUC值。做上述分析时先将应变量和自变量任意一个有缺失值的行去掉。
输入命令后回车,软件给出 R 代码并运行:
再做一个多模型比较的例子:
以'Objective.Response'为因变量(二分类),'Treatment'作自变量为model1,'Extent'做自变量为model2, 'Treatment','Extent'同时作为自变量为model3, 做3个Logistic 回归;这三个模型做ROC曲线在同一个图(ggplot2),并添加3个AUC值在legend中,legend不得太宽,文字可以换行,图中央不再放AUC。做上述每个模型时,每个模型中应变量和自变量任意一个有缺失值的行去掉,而不是一开始统一去掉缺失值后再建模。
输入命令后回车,软件给出 R 代码并运行:
总结:
Deepseek 能够完成任何一种统计分析。但现阶段,和Deepseek对话还是需要一些统计学常识。如果统计学较薄弱的同学,需要借助第三方软件,套用一些prompt模板,并在第三方软件上直接运行 DeepSeek 生成的 R 代码。
来源:真实世界研究