Cloudant 发布了基于 Java 的 CouchDB 视图服务器

  • Michael Hunger
  • 曹云飞

2010 年 9 月 19 日

话题:JavaErlang架构语言 & 开发

CouchDB 背后的公司 Cloudant 刚发布了针对 CouchDB 的Java 视图服务器。这意味着不仅仅是 Erlang 和解释性语言如 Javascript 或者 Python 可以用于 Map-Reduce 工作,基于 JVM 的语言也可以用于 Map-Reduce 工作。本周的 CouchDB 社区会议将会讨论这项技术。目前 Java 视图服务器只用于 Cludant 托管的 BigCouch 服务。

Java 的主要优点是有海量的 Java 库可用于各种各样与 map reduce 任务有关的功能。第二点是更可靠的静态类型方面(还需要证实)。性能比较是有意义的,但是目前还没有做基准测试。预期 Java 视图的性能会比原生的 Erlang 视图慢(Java 和 Erlang 可以混合在一个视图中)。使用 org.json 库做的 JSON 序列化和反序列化会带来一些性能开销。要使用基于 Java 的 Map Reduce 视图只需要实现一个简单的JavaView 接口,该接口提供了对 map、reduce 和 rereduce 的回调。例如一个简单的视图,聚合在配置的 JSON 字段中的单词数量。 {

 "_id":"_design/splittext",  "language":"java",  "views" : {  "title" : {"map":"{\"classname\":\"
com.cloudant.javaviews.SplitText\",\"configure\":\"title\"}","reduce":"com.cloudant.javaviews.SplitText"},

    }     }
InfoQ 与负责 Java 视图服务器项目的 Search at Cloudant 主管 David 做了交流。InfoQ:CouchDB 运行在 Erlang 之上,它如何与 JVM 中的代码交互?实现这个项目的挑战在哪里?David:Java 视图服务器和所有 CouchDB 视图服务器一样(除了原生 erlang)作为一个外部进程运行。在 CouchDb 和视图服务器之间有一个定义良好的协议来做通信。通常,通过标准方式做通信,但是实际上因为性能原因我们使用 OtpErlang java-erlang 库(允许多线程)。InfoQ:在这个场景下对代码 / 库有什么限制?David:主要的挑战是安全,在系统级和用户数据级都用限制。我们在一个共享的集群运行视图服务器。我们使用动态类加载来加载用户的库。类加载器有一个十分严格的安全管理器来限制恶意调用。不允许文件系统访问,只允许调用有限的系统调用。目前的视图服务器架构很简单,它使用由基于 Erlang 的 CouchDB 实例来驱动 java 线程。如果 Java 服务器出问题了,它只是关闭并重启服务器。对于这样的服务器还可以使用基于 Scala 的Akka framework 或者Jetty 的非阻塞请求来实现。Java 视图服务器可以运行在任何 JVm 上。一 个巨大的潜力在于使用 Java 的下一代语言例如 Clojure、Scala 或者 Groovy(和其他语言)来做种工作,因为这些语言对于表达这样的任务比 Java 更简明高效。据 David 所说其他团体正在开发一个基于 Clojure 的视图服务器。如果想评估新的 Java 视图服务器,可以从Cloudant's 的站点获得一个免费的账号。在couchjava github 版本库可以看到更详细的介绍查看英文原文:Cloudant releases Java based view server for CouchDB

JavaErlang架构语言 & 开发