R 语言实战 (2nd ed)(32):创建数据集 2.4.1&2.4.2

阅读数:8 2019 年 11 月 16 日 20:39

R语言实战(2nd ed)(32):创建数据集 2.4.1&2.4.2

内容简介
本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近 200 页内容,介绍数据挖掘、预测性分析和编程。
本书适合数据分析人员及 R 用户学习参考。

(变量标签)

遗憾的是,R 处理变量标签的能力有限。一种解决方法是将变量标签作为变量名,然后通过位置下标来访问这个变量。考虑之前病例数据框的例子。名为 age 的第二列包含着个体首次入院时的年龄。代码:

复制代码
names(patientdata)[2] <- "Age at hospitalization (in years)"

age重命名为"Age at hospitalization (in years)"。很明显,新的变量名太长,不适合重复输入。作为替代,你可以使用patientdata[2]来引用这个变量,而在本应输出age的地方输出字符串"Age at hospitalization (in years)"。很显然,这个方法并不理想,如果你能尝试想出更好的命名(例如,admissionAge)可能会更好一点。

(值标签)

函数factor()可为类别型变量创建值标签。继续上例,假设你有一个名为gender的变量,其中 1 表示男性,2 表示女性。你可以使用代码:

复制代码
patientdata$gender <- factor(patientdata$gender,
levels = c(1,2),
labels = c("male", "female"))

来创建值标签。

这里levels代表变量的实际值,而labels表示包含了理想值标签的字符型向量。

评论

发布