R 语言实战 (2nd ed)(26):创建数据集 2.3.4&2.3.5

阅读数:28 2019 年 11 月 13 日 15:44

R语言实战(2nd ed)(26):创建数据集 2.3.4&2.3.5

内容简介
本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近 200 页内容,介绍数据挖掘、预测性分析和编程。
本书适合数据分析人员及 R 用户学习参考。

(导入 XML 数据)

以 XML 格式编码的数据正在逐渐增多。R 中有若干用于处理 XML 文件的包。例如,由 Duncan Temple Lang 编写的 XML 包允许你读取、写入和操作 XML 文件。XML 格式本身已经超出了本书的范围。对使用 R 存取 XML 文档感兴趣的读者可以参阅 www.omegahat.org/RSXML ,从中可以找到若干份优秀的软件包文档。

(从网页抓取数据)

网络上的数据,可以通过所谓Web 数据抓取(Webscraping)的过程,或对应用程序接口(application programming interface,API)的使用来获得。

一般地说,在 Web 数据抓取过程中,用户从互联网上提取嵌入在网页中的信息,并将其保存为 R 中的数据结构以做进一步的分析。比如说,一个网页上的文字可以使用函数readLines()来下载到一个 R 的字符向量中,然后使用如grep()gsub()一类的函数处理它。对于结构复杂的网页,可以使用RCurl包和XML包来提取其中想要的信息。更多信息和示例,请参考网站 _Programming with R_( www.programmingr.com )上的“Webscraping using readLines and RCurl”一文。

API 指定了软件组件如何互相进行交互。有很多 R 包使用这个方法来从网上资源中获取数据。这些资源包括了生物、医药、地球科学、物理科学、经济学,以及商业、金融、文学、销售、新闻和运动等的数据源。

比如说,如果你对社交媒体感兴趣,可以用twitteR来获取 Twitter 数据,用 Rfacebook来获取 Facebook 数据,用Rflickr来获取 Flicker 数据。其他软件包允许你连接上如 Google、Amazon、Dropbox、Salesforce 等所提供的广受欢迎的网上服务。可以查看 CRAN Task View 中的子版块 _Web Technologies and Services_( https://cran.r-project.org/web/views/WebTechnologies.html )来获得一个全面的列表,此列表列出了能帮助你获取网上资源的各种 R 包。

评论

发布