MongoDB 不断发展:发布 1.4 版本,10gen 提供商业支持

  • Michael Hunger
  • 丁雪丰

2010 年 4 月 5 日

话题:架构DevOpsAI

3 月 25 日MongoDB(取自“humongous”)1.4 版发布后不久,其创始人 Dwight Merriman(前 DoubleClick CEO/CTO)宣布10gen—— 开源文档数据库 MongoDB 背后的公司,将为其提供商业培训和支持。

InfoQ 借此机会采访了 Merriman,了解了 MongoDB 的特性、适用性以及在 NoSQL 数据库社区中的地位,文中适当引用了他的一些回答。

MongoDB 介绍

MongoDB 是一个可扩展、高性能的下一代数据库。MongoDB 中的数据以文档形式存储,这样就能在单个数据对象中表示复杂的关系。文档可能由以下几 部分组成:独立的基本类型属性、“内嵌文档”或文档数组。

这样的灵活性让开发者能以一种易于管理且灵活的方式来对大量的问题进行建模,不必将数据打散到不同的数据表中。在数据不宜被构造成单独文档的情况 下,MongoDB 有“DBRef”的概念,这是从文档的一个属性指向另一个文档的指针。

从 MongoDB 数据库中获取和查询数据是十分灵活的——可以基于主文档、文档中的任意属性、任意内嵌文档、数组中的任意文档来动态地查询文档。可以通过 “点”符号来访问内嵌文档。

特性

用 C++ 开发的 MongoDB 有以下特性:

  • 面向文档的存储方式(发挥 JSON 风格的数据模式的力量和灵活性)
  • 内部对象、内嵌数组、地理空间信息
  • 动态查询
  • 支持全索引,包括二级索引
  • 查询剖析
  • 快速、原地更新
  • 对二进制大数据对象(例如照片和视频)的有效存储
  • 支持复制和故障转移
  • 针对云级扩展的自动分片(alpha 阶段)
  • 针对复杂聚合的 MapReduce
  • 商业支持、培训和咨询

起源与目的

MongoDB 的博客上是这样来介绍他们的目标的:

一直以来,MongoDB 的目标都不是处理少数问题的特殊数据库,而是一种新型数据库,是可以为开发者解决大量现实问题的数据库。

MongoDB 项目的重点是将非关系模型的优点和传统数据库中常见的重要特性结合起来,前者包括高可扩展性、性能和易于开发,后者在重要的操作型数据存储中很有用。

MongoDB 不是在实验室里设计出来的,它源自于我们自己在构建大规模高可用系统方面的经验。

MongoDB 在 14 个月前,于 2009 年 2 月 11 日,发布了第一个正式版本。其背后的哲学告诉大家,尽管出于可扩展性和性能的考虑削弱了事务语义,人们还是需要一个功能更强大的工具来应对常见问题,不仅仅是 纯 Key-Value 存储。

与 DDD 的关系

文档化范式是一种有趣的用于持久化复杂对象结构的途径。尤其是领域驱动设计(DDD)所提出的聚合概念,只有根实体能被其他实体连接到,被依赖的实体和值只能通过根来访问。在 DDD 的项目里,基于 MongoDB 的仓库能方便地用于提供持久化功能。另外,还有一个相关的观点,当关系到业务实体时,业务领域中总是会提到文档。因此,也许用文档作为内部表示方式会比其他数据结构或对象更合适一些。

在无模式的文档数据库中,数据建模依然十分重要。在创建文档前有多方面的关系需要慎重考虑,不然会导致数据重复、性能不佳和其他问题

范例与教程

例如,在一个关系型数据库中,一篇博客(包含文章内容、评论、评论的投票)会被打散在多张数据表中。在 MongoDB 中,能用一个文档来表示一篇博客,评论与投票作为文档数组,放在正文主文档中。这样数据更易于管理,消除了传统关系型数据库中影响性能和水平扩展性的“JOIN”操作。
> db.blogposts.save({ title : "My First Post", author: {name : "Jane", id :1},
  comments : [{ by: "Abe", text: "First" },
              { by : "Ada", text : "Good post" }]
})

> db.blogposts.find( { "author.name" : "Jane" } )

> db.blogposts.findOne({ title : "My First Post", "author.name": "Jane",
  comments : [{ by: "Abe", text: "First" },
              { by : "Ada", text : "Good post" } ]
})
> db.blogposts.find( { "comments.by" : "Ada" } )

> db.blogposts.ensureIndex( { "comments.by" : 1 } );

你可以直接在交互式 MongoDB Web 控制台 Shell里运行该范例,其中还嵌入了在线教程

InfoQ 的 CTO Alex PopescumyNoSQL中放了很多新闻、评论和多个 NoSQL 数据存储(包括MongoDB)的比较,可以参考他的生产环境笔记

Teach Me To Code发布了3 段视频,介绍了 MongoDB 的诸多特性。

Pivotallabs 提供了一段由 10gen 的 Michael Dirolf 做的介绍性演讲的录像。Slideshare 上还能找到 Kyle Banker 做的一个比较完整地介绍 MongoDB 的演讲

安装与集成

MongoDB 数据库遵循GUN AGPL v3.0 协议发布,mongodb.org 提供的驱动遵循Apache License v2.0。 你能从github上获取它的 C++源代码,并在任意操作系统上构建它。

你也能以二进制包的形式在 Linux、MacOS X、Windows 和 Solaris 上安装MongoDB。

MongoDB 本身以mongod守护进程的形式运行,这是核心数据库服务器,随后通过多种驱动来访问它。分片支持和数据库路由功能由mongos 服务来提供。

有人努力在几乎所有编程语言中支持 MongoDB。它有多种语言的驱动CC++C# & .NET, ColdFusionErlangFactorJavaJavascriptPHPPythonRubyPerl等等

MongoDB 还支持其他框架,例如gremlin(图数据库)的“blueprints”连接器库Debasish Ghosh 将之集成到了可扩展 Actor 框架 Akka中,作为持久化模块

操作与可扩展性

从操作角度来讲,MongoDB 可以根据应用程序的需要以两种模式来运行。第一种是“单主”(single master)模式,只有一台主服务器来处理所有的写操作。读操作能从中分离出去,通过任意数量的从服务器来进行读操作,这有利于提高读的可扩展性(使用场景:Sourceforge)。

对于那些写数据量很大或写频率过高,单台主服务器无法处理的应用程序,可以使用 MongoDB 的自动分片模式(正处于 alpha 阶段)。该模式下写操作会自动分配到任意数量的“片”中(一般是一台或一组 MongoDB 服务器),它们负责这部分数据集的写和读。

无论使用哪种模式,MongoDB 都会采取“强一致性”方法(你可以把 MongoDB 看成CAP理论中的 C-P 系统)。高可用性是通过将数据复制到多个 MongoDB 节点来实现的,每个节点都能及时成为一个分片的主服务器——MongoDB 会自动处理故障转移。这能让你在维持相当高的写可用性的同时,拥有强一致性特性,这对一些用例来说非常重要。

mongodb 站点里有一个管理员中心提供如下操作信息:

文档、支持与培训

MongoDB 的文档位于mongodb.org wikiPDF), 遵循 Creative Commons License。

10gen 设计了 MongoDB,以此来解决应用程序开发社区中的大量现实问题。我们可以把 MongoDB 用作很多有数据库后端的应用程序的数据存储部分,实际的客户部署情况也证明了这一点。

今天,10gen 为那些在生产应用程序中使用了 MongoDB 的客户提供支持、咨询和培训。在不久的将来,10gen 将提供基于云的服务(例如托管的 MongoDB 服务)以及针对大规模 MongoDB 集群的高级管理工具。

目前的使用情况

1.3 版本的 MongoDB 已被广泛用于生产系统中,比较知名的用例有:

当然,还有很多其他的用例

今后的开发规划

MongoDB 团队关于数据存储的愿景非常广阔,他们认为目前的 1.4 版本包含了半数他们想要的特性,明年他们会继续努力。

  • 更好的复制功能:实时、复制集、更多数据耐久性选项
  • 可用于生产环境的分片
  • 内嵌文档方面的更多特性
  • 提 供更多原子更新操作符
  • 单服务器耐久性
  • 全文检索

查看英文原文:MongoDB Growing Up: Release 1.4 and Commercial Support by 10gen

架构DevOpsAI