R 语言实战 (2nd ed)(15):创建数据集 2.2

阅读数:20 2019 年 11 月 13 日 15:30

R语言实战(2nd ed)(15):创建数据集 2.2

内容简介
本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近 200 页内容,介绍数据挖掘、预测性分析和编程。
本书适合数据分析人员及 R 用户学习参考。

(数据结构)

R 拥有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表。它们在存储数据的类型、创建方式、结构复杂度,以及用于定位和访问其中个别元素的标记等方面均有所不同。图 2-1 给出了这些数据结构的一个示意图。

R语言实战(2nd ed)(15):创建数据集 2.2

图 2-1 R 中的数据结构

让我们从向量开始,逐个探究每一种数据结构。

一些定义
R 中有一些术语较为独特,可能会对新用户造成困扰。
在 R 中,对象(object)是指可以赋值给变量的任何事物,包括常量、数据结构、函数,甚至图形。对象都拥有某种模式,描述了此对象是如何存储的,以及某个,像print这样的泛型函数表明如何处理此对象。
与其他标准统计软件(如 SAS、SPSS 和 Stata)中的数据集类似,数据框(data frame)是 R 中用于存储数据的一种结构:列表示变量,行表示观测。在同一个数据框中可以存储不同类型(如数值型、字符型)的变量。数据框将是你用来存储数据集的主要数据结构。
因子(factor)是名义型变量或有序型变量。它们在 R 中被特殊地存储和处理。你将在 2.2.5 节中学习因子的处理。
其他多数术语你应该比较熟悉了,它们基本都遵循统计和计算中术语的定义。

评论

发布