写点什么

微软声称创造了 ETL 的新纪录——在 30 分钟内完成 1TB 的数据存储量

  • 2008-03-10
  • 本文字数:1211 字

    阅读完需:约 4 分钟

微软和 Unisys 声称他们创造了向关系型数据库载入信息的纪录。非官方的评测结果是:数据提取、转换和装载工具(简称 ETL 工具)在不到 30 分钟的时间内将 1TB 的 TPC-H 数据存储到关系数据库中。对于此数据量,此前的纪录是由 Informatica 创建的 45 分钟。

声明的详情如下:

从非结构化数据文件中分析得到超过 1TB 的数据,通过网络传送并装载到目标数据库中,而这只用了不到 30 分钟的时间,超越了此前所有公开使用 ETL 工具纪录,是一个新的世界纪录。它的速率达到了 2TB 每小时(每秒超过 650MB),更准确地说,是在 1794 秒以内完成 1.18TB 的非结构化文件数据装载,这相当于每 25 分 20 秒就完成 1TB 或是每小时 2.36TB。

ETL 的评测使用了 TPC-H 数据,但这并非是事务处理性能委员会( Transaction Processing Performance Council )的官方评测,但这并不影响像 Informatica 这样的公司去吹嘘他们的产品性能。微软承认 ETL 评测很重要,因为他们能代表现实世界对产品的应用需求。

在如今的业务中,只有极少数的数据会一直保留在目标系统中而无须进行标准化以及载入前的错误处理,而在极大多数情况下,对大量数据装载的处理极有意义。数据的集成涉及到复杂的转换规则、错误检验和数据标准化技术。像 SSIS 这样的 ETL 工具就可以实现这些功能,如,在不同的系统间进行数据的移动、数据的再格式化、完整性校验、关键值查询、衍生跟踪等,SSIS 也证明了它是一个有能力和有着多方面用途的 ETL 工具。现在,它又向公众展示它是 ETL 工具中最快的一员。

实现这一个漂亮成绩的硬件当然也是非标准的,它也不是大多数公司能企及的。

数据库服务器是运行在 Unisys ES70000 企业级服务器上的,它拥有 32 颗 Intel® 双核 XeonTM 3.4G(7140M)处理器,256GB 内存和 8 个双端口 4G 的 HBA 网卡。SQL Server 的数据是存储在一个拥有 165 个硬盘插槽的 EMC Clariion CX3-80 SAN 中(数据吞吐能力可以达到 146GB/15 krpm)。数据库服务器是预发布 SQL Server 2008 企业版(版本号为 V10.0.1300.4,是“2008 二月份 CTP 版”之前的一个版本),操作系统是 Windows Server 2008 x64 Datacenter 版本。

有四台服务作为提供数据源,它们模拟着现代企业中各种不同系统的实际数据来源。每一个源服务器运行一个 SSIS 包将数据通过网络发送到数据库服务器上。源服务器上的 SSIS 是基于 SQL Server build V10.0.1300.4 版本,操作系统是 Windows Server 2008。原始数据是从非关系型数据文件中获得的,这些文件都是由 DBGEN 生成的。

源服务器是四台 Unisys ES3220L 服务器,操作系统是 Windows 2008 x64 企业版。每一台设备都配备了 2 颗 Inter®Quad Core 2GHz 处理器、4GB 内存和一个双端口 4Gbit Emulex HBA 以及 Inter PRO1000/PT 网卡。原始数据是从二台拥有 45 个硬盘插槽的 EMC Clariion CX600 SAN 中进行读入的。

关于这一评测的白皮书尚未发布。查看英文原文 Microsoft Claims to Hold the ETL Record at 1 TB in 30 Minutes

2008-03-10 23:212404
用户头像

发布了 90 篇内容, 共 17.3 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

详谈 MySQL 8.0 原子 DDL 原理

Java-fenn

Java

实战 | 电商业务性能测试(二): Jmeter 参数化功能实现注册登录的数据驱动

霍格沃兹测试开发学社

干货 | Chrome 浏览器+Postman还能这样做接口测试 ?

霍格沃兹测试开发学社

HiveServer2 内存泄漏问题定位与优化方案

Java-fenn

Java Java 面试 #java

Docker常用命令原理与实战

Java-fenn

java;

干货 | web自动化总卡在文件上传和弹框处理上?

霍格沃兹测试开发学社

真的香!这份《Java面试题库大全》在Github一夜爆火后直接被各大厂要求封杀!

钟奕礼

Java 编程 架构 java面试 技术宅

龙蜥开发者说:海纳百川,有容乃大,我在龙蜥社区的升级之旅 | 第 11 期

OpenAnolis小助手

开源 Linux内核 sig 龙蜥开发者说 epbf

设备健康管理平台如何为企业打造五大核心设备管理体系?

PreMaint

企业设备管理 预测性维护 设备健康管理

这份数据安全自查checklist请拿好,帮你补齐安全短板的妙招全在里面!

Java-fenn

java;

Go 语言创始人:复制亿点点代码比用别人轮子好!

Java-fenn

java;

【9.2-9.9】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

C++ STL deque 容器底层实现原理(深度剖析)

C++后台开发

容器 后端开发 C++后台开发 C++开发 C++ STL

耗时半年,堪称奇迹!阿里架构师整合出258W字Java全栈面试题

钟奕礼

Java 编程 程序员 架构 java面试

干货 | Docker 还可以搭建Web服务器nginx ?这么宝藏的吗?

霍格沃兹测试开发学社

干货 | H5性能分析实战来啦~

霍格沃兹测试开发学社

干货 | 一文搞定 Docker 容器技术与常用命令

霍格沃兹测试开发学社

云对象 - 重新定义前后端交互

Java-fenn

Java

干货 | APP自动化Android之属性获取与断言

霍格沃兹测试开发学社

GitHub永远的神!“阿里爸爸”终于总结出15W字Java源码真题手册

钟奕礼

Java 编程 架构 java面试 技术宅

干货 | 一改测试步骤代码就全写?为什么不试试用 Yaml实现数据驱动?

霍格沃兹测试开发学社

python 基于aiohttp的异步爬虫实战时间

Java-fenn

Java

干货 | JavaScript脚本注入,完成Selenium 无法做到的那些事

霍格沃兹测试开发学社

同事多线程使用不当导致OOM,被我怒怼了

Java-fenn

Java

干货 | Web自动化测试中显式等待与隐式等待该怎么用?

霍格沃兹测试开发学社

干货 | REST-assured 获取日志到文件并结合 Allure 报告进行展示

霍格沃兹测试开发学社

用了Fabric.js后突然想到了...

为自己带盐

实时音视频 Fabric.js 9月月更

让泛型的思维扎根在脑海——深刻理解泛型时间

Java-fenn

Java

Chrome已实现对H.265/HEVC的硬解支持

微帧Visionular

一文带你弄懂Kubernetes应用配置管理时间

Java-fenn

java;

Java 进阶 (八)Java 加密技术之对称加密、非对称加密、不可逆加密算法

Java-fenn

Java

微软声称创造了ETL的新纪录——在30分钟内完成1TB的数据存储量_.NET_Jonathan Allen_InfoQ精选文章