摘要:本篇是风暴统计平台教程系列的第一章,将详细说明如何正确导入我们的数据集,高效开展后续的统计分析,避免报错。
本篇是风暴统计平台教程系列的第一章,将详细说明如何正确导入我们的数据集,高效开展后续的统计分析,避免报错。
有的朋友可能会想,数据导入这么简单也需要教?
其实数据导入模块有不少开发人员的小巧思,以及关键提示说明,但大家常常忽略,因此,在后续分析模块发生一些报错,影响分析效率。
今天我们主要从"数据导入前准备工作","数据导入的正确操作"两方面介绍,了解了这份数据导入"说明书", 让你的数据分析从起点就快人一步!
在本界面有一份"数据集格式介绍",主要说明了风暴统计平台对导入数据集的格式要求。
建议大家导入数据前都可以浏览一下,其中比较关键的信息有:
变量名以简短英文命名(避免数字开头、含有空格、中文括号特殊字符等);
以纯数字对变量进行赋值(如:1代表男性;2代表女性,同时避免出现"
缺失值空白,无需使用NA、/等字符表示;
如果大家能够按照这些要求对数据集进行导入前处理,就可以在后续分析中避免80%的常见报错。
数据导入3步走:"打开我的数据集"→"Browse..."→"Import data",就可以完成数据导入了!
导入的操作还是很简单的,下面再给大家简单介绍一下这部分里面技术人员的小巧思!
View界面
在"View"界面可以全面的展示我们的数据,还提供了数据的简单分布信息与缺失个数。
Update界面
这里可以更直观的了解到数据的缺失比例。"Unique values"则展示了数据的种类数,比如第二行数据为2分类变量,第三行数据为连续变量,有27种不同赋值。
view界面与updata界面都是对数据基本情况的展示,大家简单了解即可。
重点需要做好数据导入前的处理工作!风暴统计平台基于R语言开发,因此在分析处理上保留有R语言的特点,比如变量名不符合要求会报错,编码有特殊字符也无法识别分析。
磨刀不误砍柴工,数据集准备好,之后的分析是十分快捷的!
下篇预告:如何使用风暴统计的数据整理功能?
来源:统计医研库