写点什么

微软声称创造了 ETL 的新纪录——在 30 分钟内完成 1TB 的数据存储量

  • 2008-03-10
  • 本文字数:1211 字

    阅读完需:约 4 分钟

微软和 Unisys 声称他们创造了向关系型数据库载入信息的纪录。非官方的评测结果是:数据提取、转换和装载工具(简称 ETL 工具)在不到 30 分钟的时间内将 1TB 的 TPC-H 数据存储到关系数据库中。对于此数据量,此前的纪录是由 Informatica 创建的 45 分钟。

声明的详情如下:

从非结构化数据文件中分析得到超过 1TB 的数据,通过网络传送并装载到目标数据库中,而这只用了不到 30 分钟的时间,超越了此前所有公开使用 ETL 工具纪录,是一个新的世界纪录。它的速率达到了 2TB 每小时(每秒超过 650MB),更准确地说,是在 1794 秒以内完成 1.18TB 的非结构化文件数据装载,这相当于每 25 分 20 秒就完成 1TB 或是每小时 2.36TB。

ETL 的评测使用了 TPC-H 数据,但这并非是事务处理性能委员会( Transaction Processing Performance Council )的官方评测,但这并不影响像 Informatica 这样的公司去吹嘘他们的产品性能。微软承认 ETL 评测很重要,因为他们能代表现实世界对产品的应用需求。

在如今的业务中,只有极少数的数据会一直保留在目标系统中而无须进行标准化以及载入前的错误处理,而在极大多数情况下,对大量数据装载的处理极有意义。数据的集成涉及到复杂的转换规则、错误检验和数据标准化技术。像 SSIS 这样的 ETL 工具就可以实现这些功能,如,在不同的系统间进行数据的移动、数据的再格式化、完整性校验、关键值查询、衍生跟踪等,SSIS 也证明了它是一个有能力和有着多方面用途的 ETL 工具。现在,它又向公众展示它是 ETL 工具中最快的一员。

实现这一个漂亮成绩的硬件当然也是非标准的,它也不是大多数公司能企及的。

数据库服务器是运行在 Unisys ES70000 企业级服务器上的,它拥有 32 颗 Intel® 双核 XeonTM 3.4G(7140M)处理器,256GB 内存和 8 个双端口 4G 的 HBA 网卡。SQL Server 的数据是存储在一个拥有 165 个硬盘插槽的 EMC Clariion CX3-80 SAN 中(数据吞吐能力可以达到 146GB/15 krpm)。数据库服务器是预发布 SQL Server 2008 企业版(版本号为 V10.0.1300.4,是“2008 二月份 CTP 版”之前的一个版本),操作系统是 Windows Server 2008 x64 Datacenter 版本。

有四台服务作为提供数据源,它们模拟着现代企业中各种不同系统的实际数据来源。每一个源服务器运行一个 SSIS 包将数据通过网络发送到数据库服务器上。源服务器上的 SSIS 是基于 SQL Server build V10.0.1300.4 版本,操作系统是 Windows Server 2008。原始数据是从非关系型数据文件中获得的,这些文件都是由 DBGEN 生成的。

源服务器是四台 Unisys ES3220L 服务器,操作系统是 Windows 2008 x64 企业版。每一台设备都配备了 2 颗 Inter®Quad Core 2GHz 处理器、4GB 内存和一个双端口 4Gbit Emulex HBA 以及 Inter PRO1000/PT 网卡。原始数据是从二台拥有 45 个硬盘插槽的 EMC Clariion CX600 SAN 中进行读入的。

关于这一评测的白皮书尚未发布。查看英文原文 Microsoft Claims to Hold the ETL Record at 1 TB in 30 Minutes

2008-03-10 23:212393
用户头像

发布了 90 篇内容, 共 17.2 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

实用机器学习笔记十一:决策树

打工人!

AI 算法 学习笔记 机器学习算法 12月日更

.NET6新东西---System.Text.Json Writeable DOM

喵叔

28天写作 12月日更

带儿子去滑雪

Tiger

28天写作

【Promise 源码学习】第十八篇 - EventLoop 简介

Brave

源码 Promise 12月日更

Web/Css 预处理语言的 Less 的使用 04

Jeannette

【架构实战营】模块六作业

liu🍊

【LeetCode】三数之和双指针Java题解

Albert

算法 LeetCode 12月日更

SSH客户端介绍及推荐

JiLuo.Studio

运维 SSH 服务器 客户端

架构实战营模块六作业

spark99

架构实战营

❤️使用 HTML、CSS 和 JavaScript 的简单模拟时钟❤️

海拥(haiyong.site)

JavaScript 大前端 28天写作 签约计划第二季 12月日更

模块6作业

忘记喝水的猫

架构训练营

架构实战训练营 - 模块 2- 作业

温安适

「架构实战营」

Web/Css预处理语言的Less的使用01

Jeannette

架构实战营 - 模块6 - 作业

lucian

架构实战营

Web/Css 预处理语言的 Less 的使用 02

Jeannette

Vue SSR(server side render)

Jeannette

架构实战营 毕业设计

Yina🌝很浪🌊

拆分电商系统为微服务

奔奔

Javascript实现一个Module

Jeannette

基于建木CI部署maven项目

Jianmu

maven DevOps CI/CD

Web/Css 预处理语言的 Less 的使用 03

Jeannette

模块六作业 拆分电商系统为微服务

小朱

架构实战营

元宇宙100讲-0x002

hackstoic

元宇宙

模块八作业

bob

「架构实战营」

Trino通过Iceberg创建表的过程分析

漫长的白日梦

数据湖 iceberg trino

架构实战营毕业总结

Yina🌝很浪🌊

极客时间架构师二期

30个类手写Spring核心原理之依赖注入功能(3)

Tom弹架构

Java spring 源码

Android C++系列:Linux网络(五)常见术语

轻口味

28天写作 12月日更

架构实战营毕业总结

Rabbit

聊聊数字化转型与DevOps

Jianmu

DevOps 数字化转型

架构实战营-模块六作业

21°Char

微软声称创造了ETL的新纪录——在30分钟内完成1TB的数据存储量_.NET_Jonathan Allen_InfoQ精选文章