R 语言实战 (2nd ed)(23):创建数据集 2.3.1

阅读数:30 2019 年 11 月 13 日 15:44

R语言实战(2nd ed)(23):创建数据集 2.3.1

内容简介
本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近 200 页内容,介绍数据挖掘、预测性分析和编程。
本书适合数据分析人员及 R 用户学习参考。

(使用键盘输入数据)

也许输入数据最简单的方式就是使用键盘了。有两种常见的方式:用 R 内置的文本编辑器和直接在代码中嵌入数据。我们首先考虑文本编辑器。

R 中的函数edit()会自动调用一个允许手动输入数据的文本编辑器。具体步骤如下:

(1) 创建一个空数据框(或矩阵),其中变量名和变量的模式需与理想中的最终数据集一致;

(2) 针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回此数据对象中。

在下例中,你将创建一个名为mydata的数据框,它含有三个变量:age(数值型)、gender(字符型)和weight(数值型)。然后你将调用文本编辑器,键入数据,最后保存结果。

复制代码
mydata <- data.frame(age=numeric(0),
gender=character(0), weight=numeric(0))
mydata <- edit(mydata)

类似于age=numeric(0)的赋值语句将创建一个指定模式但不含实际数据的变量。注意,编辑的结果需要赋值回对象本身。函数edit()事实上是在对象的一个副本上进行操作的。如果你不将其赋值到一个目标,你的所有修改将会全部丢失!

在 Windows 上调用函数edit()的结果如图 2-3 所示。如图 2-3 所示,我已经自主添加了一些数据。单击列的标题,你就可以用编辑器修改变量名和变量类型(数值型、字符型)。你还可以通过单击未使用列的标题来添加新的变量。编辑器关闭后,结果会保存到之前赋值的对象中(本例中为mydata)。再次调用mydata <- edit(mydata),就能够编辑已经输入的数据并添加新的数据。语句mydata <- edit(mydata)的一种简捷的等价写法是fix(mydata)

R语言实战(2nd ed)(23):创建数据集 2.3.1

图 2-3 通过 Windows 上内建的编辑器输入数据

此外,你可以直接在你的程序中嵌入数据集。比如说,参见以下代码:

复制代码
mydatatxt <- "
age gender weight
25 m 166
30 f 115
18 f 120
"
mydata <- read.table(header=TRUE, text=mydatatxt)

以上代码创建了和之前用edit()函数所创建的一样的数据框。一个字符型变量被创建于存储原始数据,然后read.table()函数被用于处理字符串并返回数据框。函数read.table()将在下一节描述。

键盘输入数据的方式在你在处理小数据集的时候很有效。对于较大的数据集,你所期望的也许是我们接下来要介绍的方式:从现有的文本文件、Excel 电子表格、统计软件或数据库中导入数据。

评论

发布