R 语言实战 (2nd ed)(34):创建数据集 2.6

阅读数:14 2019 年 11 月 16 日 20:39

R语言实战(2nd ed)(34):创建数据集 2.6

内容简介
本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近 200 页内容,介绍数据挖掘、预测性分析和编程。
本书适合数据分析人员及 R 用户学习参考。

(小结)

数据的准备可能是数据分析中最具挑战性的任务之一。我们在本章中概述了 R 中用于存储数据的多种数据结构,以及从键盘和外部来源导入数据的许多可能方式,这是一个不错的起点。特别是,我们将在后续各章中反复地使用向量矩阵数据框列表的概念。掌握通过括号表达式选取元素的能力,对数据的选择、取子集和变换将是非常重要的。

如你所见,R 提供了丰富的函数用以访问外部数据,包括普通文本文件、网页、统计软件、电子表格和数据库的数据。虽然本章的焦点是将数据导入到 R 中,你同样也可以将数据从 R 导出为这些外部格式。数据的导出在附录 C 中论及,处理大数据集(GB 级到 TB 级)的方法在附录 F 中讨论。

将数据集读入 R 之后,你很有可能需要将其转化为一种更有助于分析的格式(事实上,我发现处理数据的紧迫感有助于促进学习)。在第 4 章,我们将会探索创建新变量、变换和重编码已有变量、合并数据集和选择观测的方法。

在转而探讨数据管理之前,让我们先花些时间在 R 的绘图上。许多读者都是因为对 R 绘图怀有强烈的兴趣而开始学习 R 的,为了不让你们久等,我们在下一章将直接讨论图形的创建。关注的重点是管理和定制图形的通用方法,它们在本书余下章节都会用到。

评论

发布