摘要:Deepseek 能够完成任何一种统计分析。但现阶段,和Deepseek对话还是需要一些统计学常识。如果统计学较薄弱的同学,需要借助第三方软件,套用一些prompt模板,并在第三方软件上直接运行 DeepSeek 生成的 R 代码:
Deepseek 能够完成任何一种统计分析。但现阶段,和Deepseek对话还是需要一些统计学常识。如果统计学较薄弱的同学,需要借助第三方软件,套用一些prompt模板,并在第三方软件上直接运行 DeepSeek 生成的 R 代码:
DeepSeek 可以做一切统计学分析。但是很多人不会用,因为撰写提示词 prompt需要一定的统计学知识,因此需要一些模板来指导,通过本公众号,您能学习到一些提问的技巧,同时,很多第三方的软件已经提供了各种统计方法的prompt提问模板,同时可以自动完成统计分析(不像原版 deepseek 只给出 R 代码,自己本身并不运行)。
增加了 DeepSeek 统计学插件,导入自己的数据集,让大家和 DeepSeek 对话完成统计分析时,同时调用后台的 R 软件进行实时分析,并将分析结果整理输出为 word 文档。
本公众号现在分期介绍一些实用的 DeepSeek 的 prompt 模板。第2期介绍如何一句话完成各种线性回归:
, 左上角选择进入Mstata 医学统计机器人,菜单选择“数据准备”,导入数据后,选择“定义字段”, 正确定义好连续性变量和分类变量后,点击 “deepseek 自动统计分析工具” 菜单,进入页面并选择一个线性回归的prompt 模板:
线性回归可能有几种情况:
1)一个 Y 和 一个 X 的简单线性回归;可以直接做回归,然后生成回归的残差图,如果残差近似正态分布,则可以用线性回归。如果残差分布严重不为正态,可以考虑做一些变量变量变换例如取对数等等;
2)一个 Y 和 多个 X1,X2,X3 等;也就是多因素的回归分析,可以直接建模做回归,也可以先做多重共线性检验;也可以先做变量筛选,从一大堆变量中筛选出一些变量来建模;最后生成回归的残差图,如果残差正态分布,则可以用线性回归。如果残差分布不为正态,可以考虑做一些变量变量变换例如取对数等等;
3)自变量 X 为连续性变量时,可以先做标化,再进行回归分析,也可以离散化成分类变量,再做线性回归;
4)自变量 X 为分类变量时,一般软件默认拆分成哑变量。将其中一个亚组设置为参照组,其他亚组分别和这个参照组比较;另外,也可以采用事后检验post hoc分析,自行设置亚组之间如何两两比较,以及用不同的方法校正P值
目前如果用简单的命令进行线性回归,Deepseek 通常会采用默认最简单的方法进行分析,如果要实现上述 4 点要求,需要将其在 prompt 中陈述出来,否则Deepseek本身不会执行上述 4 点要求的细节部分。这也是目前 Deepseek 没有完全淘汰统计师这个职业的原因。
下面是单因素线性回归的具体示例:
下拉到 DeepSeek 对话窗口:
粘贴 prompt 命令:
以'Blood.test'为因变量,'Age'作为自变量做线性回归;做线性拟合图,图中加入拟合公式,公式里包含真实变量名;输出残差图。
输入命令后回车,软件给出 R 代码并运行:
再做一个多因素的例子:
以'Occurrence'为因变量,'Age','Sex','Extent' 作为自变量做多因素线性回归;同时做多重共线性分析并做成统计表;做整个模型的线性拟合图(不分组),图中加入拟合公式,公式里包含真实变量名;输出残差图。做上述分析时先将应变量和自变量任意一个有缺失值的行去掉。给所有图片加上中文标题。
输入命令后回车,软件给出 R 代码并运行:
总结:
Deepseek 能够完成任何一种统计分析。但现阶段,和Deepseek对话还是需要一些统计学常识。如果统计学较薄弱的同学,需要借助第三方软件,套用一些prompt模板,并在第三方软件上直接运行 DeepSeek 生成的 R 代码。
来源:真实世界研究