Spark 1.4为DataFrame新增的统计与数学函数

目前，Spark 1.4 版本在社区已经进入投票阶段，在 Github 上也提供了 1.4 的分支版本。最近，Databricks 的工程师撰写了博客，介绍了 Spark 1.4 为 DataFrame 新增的统计与数学函数。这篇博客介绍的函数主要包括：

随机数据生成（Random Data Generation）
概要与描述性统计（Summary and descriptive statistics）
协方差与相关性（Sample covariance and correlation）
交叉列表（Cross tabulation）
频率项（Frequent items）
数学函数（Mathematical functions）

随机数据生成（Random Data Generation）主要是为测试数据提供方便快捷的接口，如 range、rand 和 randn。rand 函数提供均匀正态分布，而 randn 则提供标准正态分布。在调用这些函数时，还可以指定列的别名，以方便我们对这些数据进行测试。

概要与描述性统计（Summary and Descriptive Statistics）包含了计数、平均值、标准差、最大值、最小值运算。只需要针对 DataFrame 调用 describe 函数即可：

from pyspark.sql.functions import rand, randn
df = sqlContext.range(0, 10).withColumn('uniform', rand(seed=10)).withColumn('normal', randn(seed=27))

df.describe().show()
```可能的结果显示为：

summary  id uniform normal count 10 10 10 mean 4.5 0.5215336029384192 -0.01309370117407197 stddev 2.8722813232690143 0.229328162820653 0.5756058014772729| min 0 0.19657711634539565 -0.7195024130068081 max 9 0.9970412477032209 1.0900096472044518 交叉列表为一组变量提供了频率分布表，在统计学中被经常用到。例如在对租车行业的数据进行分析时，需要分析每个客户（name）租用不同品牌车辆 (brand) 的次数。此时，就可以直接调用 crosstab 函数。例如：

`df.stat.crosstab("name", "brand").show()`但是需要注意的是，必须确保要进行交叉列表统计的列的基数不能太大。

为 DataFrame 新增加的数学函数都是我们在做数据分析中常常用到的，包括 cos、sin、floor、ceil 以及 pow、hypot 等。以上新特性都会在 Spark 1.4 版本中得到支持，并且支持 Python、Scala 和 Java。在未来发布的版本中，DataBricks 还将继续增强统计功能，并使得 DataFrame 可以更好地与 Spark 机器学习库 MLlib 集成，例如 Spearman Correlation（斯皮尔曼相关）、针对协方差运算与相关性运算的聚合函数等。

若希望了解这些新增特性的具体内容，可以持续关注 [DataBricks 的开发者博客](http://databricks.com/blog/category/developer)。

- - - - - -

感谢 [丁晓昀](http://www.infoq.com/cn/author/%E4%B8%81%E6%99%93%E6%98%80) 对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 [editors@cn.infoq.com](mailto:editors@cn.infoq.com)。也欢迎大家通过新浪微博（[@InfoQ](http://www.weibo.com/infoqchina)，[@丁晓昀](http://weibo.com/u/1451714913)），微信（微信号：[InfoQChina](http://weixin.sogou.com/gzh?openid=oIWsFt0HnZ93MfLi3pW2ggVJFRxY)）关注我们，并与我们的编辑和其他读者朋友交流（欢迎加入 InfoQ 读者交流群 [![](https://static001.infoq.cn/resource/image/06/9f/06e1fec4a87eca3142d54d09844c629f.png)](http://shang.qq.com/wpa/qunwpa?idkey=cc82a73d7522f0090aa3cbb6a8f4bdafa8b82177f481014c976a8740d927997a)）。

创作场景

Spark 1.4 为 DataFrame 新增的统计与数学函数