NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

GigaOm 结构会议关注新兴的数据架构

  • 2010-07-14
  • 本文字数:3483 字

    阅读完需:约 11 分钟

在几周之前召开的 GigaOM 结构会议上,人们对云计算相关的多个领域展开了讨论。 其中的关键主题之一就是新的数据架构的出现。 贯穿多个座谈、采访以及演讲,很多演讲者都指出,处理数据的方式将在不久之后发生显著地改变。

VMWare 的 CEOPaul Maritz 指出,操作系统的传统角色是管理系统资源以及提供服务,而在这两个方面它的角色都正在被取代。 他说,虚拟化技术已经不再限于 CPU 和内存,而是扩展到了存储和策略领域。 他还指出,像 Spring 或 Ruby(以及 Rails)之类的编程框架正在成为获取服务的主要方式。 Paul 提到,VMWare 正准备收购其他公司,以提供 Java 平台之外的框架。 他认为这些框架都极为重要,因为云服务是新的硬件——它是黑盒,你无法了解它的内部构造,因此框架层会为我们提供方便以及管理云的工具。 除了框架之外,他们还向队列和数据缓存技术投入了大量的资金——VMWare 认为整个“数据栈”(data stack)都处于变动之中。

在 VC 座谈会上,Accel Partners 的 Ping Li(他投资创建了 Cloudera)说,对于使用 NoSQL 的新数据堆栈,以及像 Cloudera 之类的公司提供的分析和 OLAP,他都发现了很多的机会。 假设我们已经拥有了 Hadoop,那么就会需要附加的分析服务,正如 web 2.0 公司需要新的数据层一样,新的云应用也有同样的需要。

会议上还有一些新创业公司召开了发布会。 其中与变更数据过程相关的公司有:

  • Datameer——它为分析师提供了一种工具,让他们可以进行海量数据分析,而不需要在电子数据表格中编码。
  • NorthScale ——他们发布了 MemBase 服务器的 beta 版本,它可以将 Memcached 扩展到永久性存储上。
  • Nephosity ——提供向导来配置 Hadoop 的 job,而不需要编码。
  • Riptano——为 Apache Cassandra(一种主要的 NoSQL key/value 数据库)提供企业级的支持和分发。

其中还有一场关于扩展云中的数据库的座谈会,10gen、Neo Technology、Pervasive Software、Clustrix、Terracotta 以及 Northscale 等公司都派代表参加。 这些公司达成了一项共识,传统的数据库在可扩展的云环境中无法有效工作。 Clustrix 的 Paul Mikesell 提出了这样的观点:分布式的数据库可以解决非可扩展的数据库的问题,那种数据库提供单独的管理结点,并且能够提供可替换的资源。 其他人认为,对开发者来说,关系型数据库更加难于使用,不同的数据存储机制能够为多变的数据格式和工作负载提供更好的支持。 Pervasive Software 公司的 Mike Hoskins 指出,关系型数据也已经不再紧抓住所有的数据问题不放,后关系型(post-relational)是比 NoSQL 更重要的一个概念。

关于 SQL 是否有用,在会上也有大量的讨论: 10gen 公司的 Roger Bodamer 认为 NoSQL 更适合于建模领域,而关系型模式由于涉及到太多的表和关系,所以需要最好的数据建模师才能使其有效发挥作用。 Neo Technology 公司的 Emil Eifrem 认为,SQL 总是让人头疼,开发者讨厌 SQL,并且使用工具来逃避它。 类似的,Terracotta 公司的 Amit Pandey 也指出,开发者通常会使用 Hibernate(有针对 Java 和.NET 的版本)作为抽象层,从而对数据库进行编程。 10gen 公司的 Roger Bodamer 认为,对于分析师来说,SQL 非常实用,而对于水平的读写可扩展性,其中你不需要很强的事务连贯性,NoSQL 是非常有用的,另外还有多种适合不同目的的数据库: 图形数据库,key/value 存储、文档数据库以及列数据库(column stores)。他指出 MongDB 是出于领先地位的基于文档的数据库,还说用户在将该项技术引入到正式环境中的时候会提出运维的问题: 例如,如何备份数据,最佳实践是怎样的? Paul Mikesell 同意在分析型数据库和 OLTP 数据库之间有不同的需求,后者需要统一性和更高的并发性,这使得我们有必要基于行的格式,这与基于列的分析型数据库存在较大的区别。

当被问及云会对数据库造成什么影响的时候,Paul Mikesell 以 sharding 为例,说明了在云环境和本地数据中心中使用单实例的数据库都会导致故障,他还指出 Hadoop 在数据分析方面做了大量工作,而 Clustrix 和其他公司的关注点则在于事务。 Amit Pandey 认为 25 年间累积的数据会让原有的传统数据库设计不堪重负。 Roger Bodamer 补充说,可扩展的数据库实现方式能够容忍一些故障,像丢失数据等等,这会让它们更适合云环境,并且能够节省新数据库的设计费用。 Mike Hoskins 指出关键的问题在于如何读写数据库,即便拥有丰富的用来载入数据、报告和管理数据的工具(像关系型数据库一样),在非传统数据库的实现过程中还有很多鸿沟需要跨越。他认为对于分析数据来说有更多的问题需要解决,而这些鸿沟比在事务处理过程中更容易管理。

会上还有关于海量数据的座谈会,出席此次会议的公司有 Cloudera、SQLStream、NEC 实验室、Yahoo 以及 Par Accel。 当被问及如何知道是否正在处理海量数据的时候,Cloudera 公司的 Amr Awadallah 说,当你总需要购买新的硬盘并使用磁带存档的时候,就是在处理海量数据。 SQLStream 公司的 Damian Black 说到,当你“消化不良”,并且无法跟上涌进来的数据的步伐时,就是在处理海量数据。 NEC 实验室的 Hagan Hacigumus 说到,当你现存的数据管理已经濒临崩溃,那么就说明你拥有“处理不了的海量数据”。 Yahoo 的 Todd Papaioannou 认为海量数据与数据的复合性有很大关系——它是“一大块一大块”的非结构化或者半结构化的数据,你需要在其中查找以发现有价值的内容。 Par Accel 的 Barry Zane 认为,在合理的时间范围内,如果有大量与你的问题的答案相关的信息,那么这就是让人恐惧的任务,比方说,针对点击流(clickstream)的分析,就需要你处理海量数据。

人们还请讨论小组提供现实应用的示例。 Amr Awadallah 说,eBay 现在拥有世界第三大的 Hadoop 群集,其中存储了几千兆的数据,并在会在它与传统的数据仓库之间移动数据。 eBay 的 Hadoop 群集的主要价值在于让人们可以运行复杂的算法,像为人们匹配商品、计算等级以及进行欺诈检测等等。 他还指出,Apollo 小组(Pheonix 母公司的大学)拥有大规模的 Hadoop 集群,他们将其用于分析学生如何与在线内容交互,从而对内容的发送进行优化。 Damian Black 说,澳大利亚政府正在进行一个项目,来监控高速公路上的所有汽车,从而动态地进行限速,这需要实时进行,从而避免导致交通堵塞的冲击波(compression waves)。 Barry Zane 指出,诚信国家信息服务(Fidelity National Information Services)已经与信用卡活动相关联,从而检测新的欺诈方法。 T0dd Papaioannou 指出,Yahoo 每天都会分析 450 亿个事件,以确定用户感兴趣的内容,从而执行有目标的广告、垃圾邮件过滤以及机器学习。

当被问及财富 1000 强中有多少家已经声称或者在三年内会出现海量数据的问题时,Hagan Hacigumus 说大约有 30% 的公司需要非传统的技术来解决数据问题。 Amr Awadallah 说他们都有问题,只不过还没有意识到而已。 例如,将数据存档意味着将数据移动到磁带“坟墓”中,除非政府要求你将它取回来。 并且非常有必要将数据统一,而不是使其分散在二三十个数据库中。 Todd Papaioannou 说他们都有问题,但是还没有确定要花费多少资金来解决。 Barry Zane 指出,他们的客户的思想上有问题,经常会被先入为主的想法所束缚: 他给出零售商的例子:评估查询性能的时候,执行市场分析会花费他们几天而不是几分钟的时间,那样才会发现用户对他们所有产品的喜好程度。

IBM 的 Erich Clementi 指出,卫生保健、政府、财务服务以及零售公司都对海量数据分析很感兴趣。 他指出 IBM 的内部销售数据来自于 300 个数据集市和 40-50 个应用程序。 他们剔除了应用程序,并将所有的数据集市统一为单一的千兆级的数据集市,每天都有超过 10 万人访问它。 他还说他们正在开发卫生保健服务程序,以提供与 HIPAA 兼容的云,它会把临床试验花费在移动数据上的成本降低 8-12%。 尽管中在某些数据集上会存在市场竞争的问题,Erich Clementi 更看到了共享数据所提供的重要机会,即便是在竞争对手之间共享也是一样。即使他们不会共享数据来提高销售量,也可以为药品的发明提供便利,或者允许财务服务共享数据以进行欺诈检测。 当然,组织像这样的多用户使用的云需要关注安全和隐私方面的需求。

在整个会议上,改变数据结构的主题都非常引人注目,很多不同的公司都提出了自己的观点,包括很多数据用户和厂商。 有人对针对轻量级数据存储的 NoSQL 引擎感兴趣,也有人关注于大型的数据分析解决方案,特别是使用 Hadoop 在使用 MapReduce 的分布式文件系统中分解数据存储。

查看英文原文: Emergent Data Architectures Highlights From GigaOm Structure Conference

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2010-07-14 07:361368
用户头像

发布了 340 篇内容, 共 126.1 次阅读, 收获喜欢 13 次。

关注

评论

发布
暂无评论
发现更多内容

软件设计——依赖倒置

苏州程序大白

架构师

Hive SQL底层执行原理

五分钟学大数据

Hive SQL 1月月更

Chrome插件:摸鱼倒计时、每日摸鱼时间统计,奋斗逼、卷王必备,用于减少摸鱼时间和频率

OBKoro1

效率 开源 效率工具 chrome扩展 高效率

使用php-amqplib实现RabbitMq

Owen Zhang

php RabbitMQ php-amqplib

虎符研究院深入解读Web3.0未来趋势 盘点代表性项目

区块链前沿News

Web Hoo虎符 虎符研究院 虎符平台 3.0

前端使用 zx 库在 Node 中编写 Shell 脚本

devpoint

node.js Shell 1月月更 zx.js

Serverless 背景下,一部分“前端工程师”会转变为“应用交付工程师”

杨成功

Serverless 架构 前端

Jetpack—LiveData组件的缺陷以及应对策略

vivo互联网技术

android livedata JetPack 移动应用开发

项目管理是做什么

PingCode

1月月更|推荐学java——Spring之AOP

逆锋起笔

spring SSM框架 spring aop 依赖注入 面向切面编程

Scrum Master需要具备哪些能力和经验

华为云开发者联盟

Scrum 敏捷 团队 教练 Scrum Master

TDSQL | 将企业级分布式数据库做到极致

腾讯云数据库

tdsql 国产数据库

java开发之Redis的使用规范

@零度

redis JAVA开发

前端开发之JQuery的综合应用

@零度

jquery 前端开发

TDSQL PG版企业级分布式数据库技术创新实践

腾讯云数据库

tdsql 国产数据库

创业老兵李峻的新征程|ONES 人物

万事ONES

ONES CTO 冯斌|如何低成本地做出高质量决策

万事ONES

我相信:没有解不开的难题|ONES 人物

万事ONES

知识库进化论 | 华创资本对话 ONES & 为知笔记创始人

万事ONES

组件通信、硬件池化,这些创新技术你get了吗?|HDC2021技术分论坛

HarmonyOS开发者

HarmonyOS

低代码实现探索(二十二)如何构建一个可以看的懂的系统

零道云-混合式低代码平台

为什么HashMap会产生死循环?

王磊

TDSQL-C for PostgreSQL 主从架构详解

腾讯云数据库

tdsql 国产数据库

2021 OceanBase 开源半年度报告 | 不忘初心,感恩同行

OceanBase 数据库

开发者 报告 OceanBase 开源 OceanBase 社区版

龙蜥社区一周动态 | 1.10-1.14

OpenAnolis小助手

Linux 开源 社群

架构实战训练营-模块7-作业

温安适

「架构实战营」

ReactNative进阶(二十三):Javascript 严格模式详解

No Silver Bullet

React Native 1月月更

GIS :元宇宙未来发展的有力技术支撑

华为云开发者联盟

AI GIS 虚拟世界 数字孪生 云宇宙

Android技术分享| 自定义View实现使用更方便的SeekBar

anyRTC开发者

android 音视频 移动开发 白板 SeekBar

CSS 自适应内容宽度的输入框

编程江湖

线上流量对比应用实践

得物技术

架构 数据 流量 实践 流量回放

GigaOm结构会议关注新兴的数据架构_架构_Ron Bodkin_InfoQ精选文章