R 语言实战 (2nd ed)(14):创建数据集 2.1

阅读数:11 2019 年 11 月 13 日 15:30

R语言实战(2nd ed)(14):创建数据集 2.1

内容简介
本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近 200 页内容,介绍数据挖掘、预测性分析和编程。
本书适合数据分析人员及 R 用户学习参考。

(数据集的概念)

数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。表 2-1 提供了一个假想的病例数据集。

表 2-1 病例数据

病人编号
(PatientID)
入院时间
(AdmDate)
年龄
(Age)
糖尿病类型
(Diabetes)
病情
(Status)
1 10/15/2009 25 Type 1 Poor
2 11/01/2009 34 Type 2 Improved
3 10/21/2009 28 Type 1 Excellent
4 10/28/2009 52 Type 1 Poor

不同的行业对于数据集的行和列叫法不同。统计学家称它们为观测(observation)和变量(variable),数据库分析师则称其为记录(record)和字段(field),数据挖掘和机器学习学科的研究者则把它们叫作示例(example)和属性(attribute)。我们在本书中通篇使用术语观测变量

你可以清楚地看到此数据集的结构(本例中是一个矩形数组)以及其中包含的内容和数据类型。在表 2-1 所示的数据集中,PatientID是行 / 实例标识符,AdmDate是日期型变量,Age是连续型变量,Diabetes是名义型变量,Status是有序型变量。

R 中有许多用于存储数据的结构,包括标量、向量、数组、数据框和列表。表 2-1 实际上对应着 R 中的一个数据框。多样化的数据结构赋予了 R 极其灵活的数据处理能力。

R 可以处理的数据类型(模式)包括数值型、字符型、逻辑型(TRUE/FALSE)、复数型(虚数)和原生型(字节)。在 R 中,PatientIDAdmDateAge为数值型变量,而DiabetesStatus则为字符型变量。另外,你需要分别告诉 R:PatientID是实例标识符,AdmDate含有日期数据,DiabetesStatus分别是名义型和有序型变量。R 将实例标识符称为rownames(行名),将类别型(包括名义型和有序型)变量称为因子(factors)。我们会在下一节中讲解这些内容,并在第 3 章中介绍日期型数据的处理。

评论

发布