R 语言实战 (2nd ed)(29):创建数据集 2.3.8&2.3.9

阅读数:10 2019 年 11 月 16 日 20:39

R语言实战(2nd ed)(29):创建数据集 2.3.8&2.3.9

内容简介
本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近 200 页内容,介绍数据挖掘、预测性分析和编程。
本书适合数据分析人员及 R 用户学习参考。

(导入 Stata 数据)

要将 Stata 数据导入 R 中非常简单直接。所需代码类似于:

复制代码
library(foreign)
mydataframe <- read.dta("mydata.dta")

这里,mydata.dta 是 Stata 数据集,mydataframe是返回的 R 数据框。

(导入 NetCDF 数据)

Unidata 项目主导的开源软件库 NetCDF(Network Common Data Form,网络通用数据格式)定义了一种机器无关的数据格式,可用于创建和分发面向数组的科学数据。NetCDF 格式通常用来存储地球物理数据。ncdf包和ncdf4包为 NetCDF 文件提供了高层的 R 接口。

ncdf包为通过 Unidata 的 NetCDF 库(版本 3 或更早)创建的数据文件提供了支持,而且在 Windows、Mac OS X 和 Linux 上均可使用。ncdf4包支持 NetCDF 4 或更早的版本,但在 Windows 上尚不可用。

考虑如下代码:

复制代码
library(ncdf)
nc <- nc_open("mynetCDFfile")
myarray <- get.var.ncdf(nc, myvar)

在本例中,对于包含在 NetCDF 文件 mynetCDFfile 中的变量myvar,其所有数据都被读取并保存到了一个名为myarray的 R 数组中。

值得注意的是,ncdf包和ncdf4包最近进行了重大升级,使用方式可能与旧版本不同。另外,这两个包中的函数名称也不同。请阅读在线帮助以了解详情。

评论

发布