写点什么

微软声称创造了 ETL 的新纪录——在 30 分钟内完成 1TB 的数据存储量

  • 2008-03-10
  • 本文字数:1211 字

    阅读完需:约 4 分钟

微软和 Unisys 声称他们创造了向关系型数据库载入信息的纪录。非官方的评测结果是:数据提取、转换和装载工具(简称 ETL 工具)在不到 30 分钟的时间内将 1TB 的 TPC-H 数据存储到关系数据库中。对于此数据量,此前的纪录是由 Informatica 创建的 45 分钟。

声明的详情如下:

从非结构化数据文件中分析得到超过 1TB 的数据,通过网络传送并装载到目标数据库中,而这只用了不到 30 分钟的时间,超越了此前所有公开使用 ETL 工具纪录,是一个新的世界纪录。它的速率达到了 2TB 每小时(每秒超过 650MB),更准确地说,是在 1794 秒以内完成 1.18TB 的非结构化文件数据装载,这相当于每 25 分 20 秒就完成 1TB 或是每小时 2.36TB。

ETL 的评测使用了 TPC-H 数据,但这并非是事务处理性能委员会( Transaction Processing Performance Council )的官方评测,但这并不影响像 Informatica 这样的公司去吹嘘他们的产品性能。微软承认 ETL 评测很重要,因为他们能代表现实世界对产品的应用需求。

在如今的业务中,只有极少数的数据会一直保留在目标系统中而无须进行标准化以及载入前的错误处理,而在极大多数情况下,对大量数据装载的处理极有意义。数据的集成涉及到复杂的转换规则、错误检验和数据标准化技术。像 SSIS 这样的 ETL 工具就可以实现这些功能,如,在不同的系统间进行数据的移动、数据的再格式化、完整性校验、关键值查询、衍生跟踪等,SSIS 也证明了它是一个有能力和有着多方面用途的 ETL 工具。现在,它又向公众展示它是 ETL 工具中最快的一员。

实现这一个漂亮成绩的硬件当然也是非标准的,它也不是大多数公司能企及的。

数据库服务器是运行在 Unisys ES70000 企业级服务器上的,它拥有 32 颗 Intel® 双核 XeonTM 3.4G(7140M)处理器,256GB 内存和 8 个双端口 4G 的 HBA 网卡。SQL Server 的数据是存储在一个拥有 165 个硬盘插槽的 EMC Clariion CX3-80 SAN 中(数据吞吐能力可以达到 146GB/15 krpm)。数据库服务器是预发布 SQL Server 2008 企业版(版本号为 V10.0.1300.4,是“2008 二月份 CTP 版”之前的一个版本),操作系统是 Windows Server 2008 x64 Datacenter 版本。

有四台服务作为提供数据源,它们模拟着现代企业中各种不同系统的实际数据来源。每一个源服务器运行一个 SSIS 包将数据通过网络发送到数据库服务器上。源服务器上的 SSIS 是基于 SQL Server build V10.0.1300.4 版本,操作系统是 Windows Server 2008。原始数据是从非关系型数据文件中获得的,这些文件都是由 DBGEN 生成的。

源服务器是四台 Unisys ES3220L 服务器,操作系统是 Windows 2008 x64 企业版。每一台设备都配备了 2 颗 Inter®Quad Core 2GHz 处理器、4GB 内存和一个双端口 4Gbit Emulex HBA 以及 Inter PRO1000/PT 网卡。原始数据是从二台拥有 45 个硬盘插槽的 EMC Clariion CX600 SAN 中进行读入的。

关于这一评测的白皮书尚未发布。查看英文原文 Microsoft Claims to Hold the ETL Record at 1 TB in 30 Minutes

2008-03-10 23:212376
用户头像

发布了 90 篇内容, 共 17.1 次阅读, 收获喜欢 11 次。

关注

评论

发布
暂无评论
发现更多内容

【转载】Byzer + OpenMLDB 实现端到端的,基于实时特征计算的机器学习流程

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

Baklib知识分享|制作网站FAQ需要注意哪些内容?

Baklib

企业级低代码中“自动化工作流”的5大优势!

优秀

自动化 工作流 企业级低代码

VUE 组件的计算属性

默默的成长

Vue 前端 10月月更

阿里内部整理的Spring boot保姆级笔记,简直太牛了

小二,上酒上酒

spring springboot

来了来了,阿里p9整理的Netty速成笔记,应有尽有

小二,上酒上酒

Netty

全网疯传,SpringBoot笔记(全彩版)顶翻天

程序知音

Java spring 源码 springboot 后端技术

阿里出品的这份Java性能调优实战手册,直接涨薪25K,真的香啊

小二,上酒上酒

Java 阿里 阿里面试

重磅 | 九科加入麒麟生态图谱,携手共建自主可控信创生态

九科Ninetech

Vue-监听使用方法和过滤器

默默的成长

Vue 前端 10月月更

六个方法教你如何搭建产品的在线帮助中心

Baklib

产品 帮助中心

Baklib知识分享|企业办公必备利器,在线协作文

Baklib

在线协作文档

耗时182天肝出来1015页分布式全栈手册太香了

程序知音

Java 程序员 架构 分布式 后端技术

五面腾讯,六h灵魂拷问,终拿下 58W offer

程序知音

Java 腾讯 java面试 后端技术 Java面试八股文

澳鹏Appen田小鹏博士:以高质量数据赋能AI驱动的元宇宙时代

澳鹏Appen

人工智能 AR/VR 训练数据 元宇宙 数据训练

活动预告 | AI for Good 2022 峰会

第四范式开发者社区

机器学习 数据库 开源 时序数据库 特征

浅谈云安全和传统安全

HummerCloud

云计算 云原生 云安全

连接团队知识孤岛,优化团队工作流程

Baklib

知识管理 知识库

【一Go到底】第十二天---switch

指剑

Go Goalng 10月月更

【融云出海白皮书免费看】出海洞察之美国的「高线市场模型」

融云 RongCloud

互联网 数据 模型

开源机器学习数据库 OpenMLDB:线上线下一致的生产级特征平台

第四范式开发者社区

人工智能 机器学习 数据库 特征 开源、

这份神仙级Spring Security源码手册,真的很强悍

小二,上酒上酒

spring spring security springboot

P9力鉴!Alibaba9月最新出品776页JDK源码+并发核心原理解析小册

程序知音

Java 架构 jdk 并发编程 后端技术

【Go】gitlab 内部 Go 组件 Module 私有化

非晓为骁

go语言 包管理 go module go mod

活动预告 | Feature Store Summit 2022

第四范式开发者社区

机器学习 数据库 开源 时序数据库 特征

Vector、ArrayList、LinkedList的区别

zarmnosaj

10月月更

Github星标57.9K!阿里巴巴Java面试突击汇总(全彩版)首次公开

程序员小毕

程序员 程序人生 JVM 多线程 Java 面试

惊为天人,百度推出的Redis笔记真的太香了

小二,上酒上酒

redis 面试

多图详解kafka生产者消息发送过程

石臻臻的杂货铺

Kafk Kafka实战 10月月更

记录第三天-Vue组件

默默的成长

Vue 前端 10月月更

微软声称创造了ETL的新纪录——在30分钟内完成1TB的数据存储量_.NET_Jonathan Allen_InfoQ精选文章