R 语言实战 (2nd ed)(2):R 语言介绍 1.1

阅读数:21 2019 年 11 月 13 日 15:24

R语言实战(2nd ed)(2):R语言介绍 1.1

内容简介
本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近 200 页内容,介绍数据挖掘、预测性分析和编程。
本书适合数据分析人员及 R 用户学习参考。

(为何要使用 R)

与起源于贝尔实验室的 S 语言类似,R 也是一种为统计计算和绘图而生的语言和环境,它是一套开源的数据分析解决方案,由一个庞大且活跃的全球性研究型社区维护。但是,市面上也有许多其他流行的统计和制图软件,如 Microsoft Excel、SAS、IBM SPSS、Stata 以及 Minitab。为何偏偏要选择 R?

R 有着非常多值得推荐的特性。

  • 多数商业统计软件价格不菲,投入成千上万美元都是可能的。而 R 是免费的!如果你是一位教师或一名学生,好处显而易见。
  • R 是一个全面的统计研究平台,提供了各式各样的数据分析技术。几乎任何类型的数据分析工作皆可在 R 中完成。
  • R 囊括了在其他软件中尚不可用的、先进的统计计算例程。事实上,新方法的更新速度是以周来计算的。如果你是一位 SAS 用户,想象一下每隔几天就获得一个新 SAS 过程的情景。
  • R 拥有顶尖水准的制图功能。如果希望复杂数据可视化,那么 R 拥有最全面且最强大的一系列可用功能。
  • R 是一个可进行交互式数据分析和探索的强大平台,其核心设计理念就是支持图 1-1 中所概述的分析方法。举例来说,任意一个分析步骤的结果均可被轻松保存、操作,并作为进一步分析的输入。
  • 从多个数据源获取并将数据转化为可用的形式,可能是一个富有挑战性的议题。R 可以轻松地从各种类型的数据源导入数据,包括文本文件、数据库管理系统、统计软件,乃至专门的数据仓库。它同样可以将数据输出并写入到这些系统中。R 也可以直接从网页、社交媒体网站和各种类型的在线数据服务中获取数据。
  • R 是一个无与伦比的平台,在其上可使用一种简单而直接的方式编写新的统计方法。它易于扩展,并为快速编程实现新方法提供了一套十分自然的语言。
  • R 的功能可以被整合进其他语言编写的应用程序,包括 C++、Java、Python、PHP、Pentaho、SAS 和 SPSS。这让你在继续使用自己熟悉语言的同时在应用程序中加入 R 的功能。
  • R 可运行于多种平台之上,包括 Windows、UNIX 和 Mac OS X。这基本上意味着它可以运行于你所能拥有的任何计算机上。(本人曾在偶然间看到过在 iPhone 上安装 R 的教程,让人佩服,但这也许不是一个好主意。)
  • 如果你不想学习一门新的语言,有各式各样的 GUI(Graphical User Interface,图形用户界面)工具通过菜单和对话框提供了与 R 语言同等的功能。

R语言实战(2nd ed)(2):R语言介绍 1.1

图 1-2 蓝领(bc)、白领(wc)、专业工作者(prof)的收入、受教育程度和职业声望之间的关系。资料来源:John Fox 编写的car包(函数scatterplotMatrix())。使用其他统计编程语言很难绘制类似的图形,但在 R 中只需一到两行代码

图 1-2 是展示 R 制图功能的一个示例。使用一行代码做出的这张图,说明了蓝领工作、白领工作和专业工作在收入、受教育程度以及职业声望方面的关系。从专业角度讲,这是一幅使用不同的颜色和符号表示不同分组的散点图矩阵,带有两类拟合曲线(线性回归和局部加权回归)、置信椭圆以及两种对密度的展示(核密度估计和轴须图)。另外,在每个散点图中都自动标出了值最大的离群点。如果这些术语对你来说很陌生也不必担心。我们将在后续各章中陆续谈及它们。这里请暂且相信我,它们真的非常酷。(搞统计的人读到这里时估计已经垂涎三尺了。)

图 1-2 主要表明了以下几点。

  • 受教育程度(education)、收入(income)、职业声望(prestige)呈线性相关。
  • 就总体而言,蓝领工作者有着更低的受教育程度、收入和职业声望;反之,专业工作者有着更高的受教育程度、收入和职业声望。白领工作者介于两者之间。
  • 有趣的例外是,铁路工程师(RR.engineer)的受教育程度较低,但收入较高,而牧师(minister)的职业声望高,收入却较低。

第 8 章将会进一步讨论这类图形。重要的是,R 能够让你以一种简单而直接的方式创建优雅、信息丰富、高度定制化的图形。使用其他统计语言创建类似的图形不仅费时费力,而且可能根本无法做到。

可惜的是,R 的学习曲线较为陡峭。因为它的功能非常丰富,所以文档和帮助文件也相当多。另外,由于许多功能都是由独立贡献者编写的可选模块提供的,这些文档可能比较零散而且很难找到。事实上,要掌握 R 的所有功能,可以说是一项挑战。

本书的目标是让读者快速而轻松地学会使用 R。我们将遍览 R 的许多功能,介绍到的内容足以让你开始着手分析数据,并且在需要你深入了解的地方给出参考材料。下面我们从 R 的安装开始学习。

评论

发布