R 语言实战 (2nd ed)(12):R 语言介绍 1.7&1.8

阅读数:15 2019 年 11 月 13 日 15:30

R语言实战(2nd ed)(12):R语言介绍 1.7&1.8

内容简介
本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近 200 页内容,介绍数据挖掘、预测性分析和编程。
本书适合数据分析人员及 R 用户学习参考。

(处理大数据集)

程序员经常问我 R 是否可以处理大数据问题。他们往往需要处理来自互联网、气候学、遗传学等研究领域的海量数据。由于 R 在内存中存储对象,往往会受限于可用的内存量。举例来说,在我服役了 5 年的 2G 内存 Windows PC 上,我可以轻松地处理含有 1000 万个元素的数据集(100 个变量×100 000 个观测)。在一台 4G 内存的 iMac 上,我通常可以不费力地处理含有上亿元素的数据。

但是也要考虑到两个问题:数据集的大小和要应用的统计方法。R 可以处理 GB 级到 TB 级的数据分析问题,但需要专门的手段。大数据集的管理和分析问题留待附录 F 中讨论。

(示例实践)

我们将以一个结合了以上各种命令的示例结束本章。以下是任务描述。

(1) 打开帮助文档首页,并查阅其中的“Introduction to R”。

(2) 安装vcd包(一个用于可视化类别数据的包,你将在第 11 章中使用)。

(3) 列出此包中可用的函数和数据集。

(4) 载入这个包并阅读数据集Arthritis的描述。

(5) 显示数据集Arthritis的内容(直接输入一个对象的名称将列出它的内容)。

(6) 运行数据集Arthritis自带的示例。如果不理解输出结果,也不要担心。它基本上显示了接受治疗的关节炎患者较接受安慰剂的患者在病情上有了更多改善。

(7) 退出。

所需的代码如代码清单 1-3 所示,图 1-7 显示了结果的示例。如本例所示,我们只需使用少量 R 代码即可完成大量工作。

代码清单 1-3 使用一个新的包

复制代码
help.start()
install.packages("vcd")
help(package="vcd")
library(vcd)
help(Arthritis)
Arthritis
example(Arthritis)
q()

R语言实战(2nd ed)(12):R语言介绍 1.7&1.8

图 1-7 代码清单 1-3 的输出。(从左至右)为关节炎示例的输出结果、帮助文档首页、vcd包的信息、Arthritis数据集的信息,以及一幅展示关节炎治疗情况和治疗结果之间关系的图

评论

发布