【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

微软声称创造了 ETL 的新纪录——在 30 分钟内完成 1TB 的数据存储量

  • 2008-03-10
  • 本文字数:1211 字

    阅读完需:约 4 分钟

微软和 Unisys 声称他们创造了向关系型数据库载入信息的纪录。非官方的评测结果是:数据提取、转换和装载工具(简称 ETL 工具)在不到 30 分钟的时间内将 1TB 的 TPC-H 数据存储到关系数据库中。对于此数据量,此前的纪录是由 Informatica 创建的 45 分钟。

声明的详情如下:

从非结构化数据文件中分析得到超过 1TB 的数据,通过网络传送并装载到目标数据库中,而这只用了不到 30 分钟的时间,超越了此前所有公开使用 ETL 工具纪录,是一个新的世界纪录。它的速率达到了 2TB 每小时(每秒超过 650MB),更准确地说,是在 1794 秒以内完成 1.18TB 的非结构化文件数据装载,这相当于每 25 分 20 秒就完成 1TB 或是每小时 2.36TB。

ETL 的评测使用了 TPC-H 数据,但这并非是事务处理性能委员会( Transaction Processing Performance Council )的官方评测,但这并不影响像 Informatica 这样的公司去吹嘘他们的产品性能。微软承认 ETL 评测很重要,因为他们能代表现实世界对产品的应用需求。

在如今的业务中,只有极少数的数据会一直保留在目标系统中而无须进行标准化以及载入前的错误处理,而在极大多数情况下,对大量数据装载的处理极有意义。数据的集成涉及到复杂的转换规则、错误检验和数据标准化技术。像 SSIS 这样的 ETL 工具就可以实现这些功能,如,在不同的系统间进行数据的移动、数据的再格式化、完整性校验、关键值查询、衍生跟踪等,SSIS 也证明了它是一个有能力和有着多方面用途的 ETL 工具。现在,它又向公众展示它是 ETL 工具中最快的一员。

实现这一个漂亮成绩的硬件当然也是非标准的,它也不是大多数公司能企及的。

数据库服务器是运行在 Unisys ES70000 企业级服务器上的,它拥有 32 颗 Intel® 双核 XeonTM 3.4G(7140M)处理器,256GB 内存和 8 个双端口 4G 的 HBA 网卡。SQL Server 的数据是存储在一个拥有 165 个硬盘插槽的 EMC Clariion CX3-80 SAN 中(数据吞吐能力可以达到 146GB/15 krpm)。数据库服务器是预发布 SQL Server 2008 企业版(版本号为 V10.0.1300.4,是“2008 二月份 CTP 版”之前的一个版本),操作系统是 Windows Server 2008 x64 Datacenter 版本。

有四台服务作为提供数据源,它们模拟着现代企业中各种不同系统的实际数据来源。每一个源服务器运行一个 SSIS 包将数据通过网络发送到数据库服务器上。源服务器上的 SSIS 是基于 SQL Server build V10.0.1300.4 版本,操作系统是 Windows Server 2008。原始数据是从非关系型数据文件中获得的,这些文件都是由 DBGEN 生成的。

源服务器是四台 Unisys ES3220L 服务器,操作系统是 Windows 2008 x64 企业版。每一台设备都配备了 2 颗 Inter®Quad Core 2GHz 处理器、4GB 内存和一个双端口 4Gbit Emulex HBA 以及 Inter PRO1000/PT 网卡。原始数据是从二台拥有 45 个硬盘插槽的 EMC Clariion CX600 SAN 中进行读入的。

关于这一评测的白皮书尚未发布。查看英文原文 Microsoft Claims to Hold the ETL Record at 1 TB in 30 Minutes

2008-03-10 23:211631
用户头像

发布了 90 篇内容, 共 12.8 次阅读, 收获喜欢 10 次。

关注

评论

发布
暂无评论
发现更多内容

首批+唯一!阿里云实时计算 Flink 版通过信通院大数据产品稳定性测试

Apache Flink

大数据 flink 阿里云 实时计算

表妹和我纠结,线上系统因为一个ThreadLocal直接内存飙升

碌碌无为小码农

Java 架构 程序人生 编程语言 经验分享

(1-20/20) 用技术实现更快、更好的销售

mtfelix

300天创作 2022Y300P

【笔记】学《郭东白的架构课》:07|法则三:架构师如何找到自己的商业模式?

术子米德

架构师成长笔记

【笔记】学《郭东白的架构课》:06|法则二:拼多多是如何通过洞察用户人性而脱颖而出的?

术子米德

架构师成长笔记

php中序列化与反序列化

喀拉峻

网络安全

被字节跳动气炸了!

Jackpop

架构实战训练营- 模块8 -作业

温安适

「架构实战营」

GitHub上线一天星标99.9K:阿里内部高逼格SpringCloud实战手册

碌碌无为小码农

Java 架构 面试 程序人生 编程语言

混沌工程之 ChaosToolkit K8S 使用之删除 POD 实验

zuozewei

k8s 混沌工程 1月月更

【笔记】学《郭东白的架构课》:11|法则五:架构师为什么要关注技术体系的外部适应性?

术子米德

架构师成长笔记

【笔记】学《郭东白的架构课》:10|架构设计中怎么判断和利用技术趋势?

术子米德

架构师成长笔记

“字节”再次起跳!内部651页剖析HotSpot 源码手册,GitHub开源

碌碌无为小码农

Java 面试 程序人生 编程语言 经验分享

【笔记】学《郭东白的架构课》:13|法则六:如何鉴别文化环境是否有利于架构师的生存?

术子米德

架构师成长笔记

科技,让春节团圆再无距离

Anthony

项目管理的十大领域

石云升

项目管理 项目经理 1月月更

24 Prometheus之微服务监控概述

穿过生命散发芬芳

Prometheus 1月月更

『内存中的操作系统』如何高效, 灵活的虚拟化内存(1)

soolaugust

操作系统 内存

【笔记】学《郭东白的架构课》:12|法则五:如何提升一个架构设计的外部适应性?

术子米德

架构师成长笔记

参数校验Spring的@Valid注解用法详解

JavaEdge

1月月更

Hoo虎符研究院2022年0124期区块简报

区块链前沿News

Hoo虎符 Hoo 虎符交易所 区块链资讯

ReactNative进阶(三十二):前端构建工具--Yeoman

No Silver Bullet

React Native 1月月更 Yeoman

第一个模块作业

achilles

后悔没有再点遇到!字节技术官DDD(领域驱动设计)手册,拆解业务代码首选

碌碌无为小码农

Java 架构 程序人生 编程语言 经验分享

【笔记】学《郭东白的架构课》:09|法则四:为什么要顺应技术的生命周期?

术子米德

架构师成长笔记

教程直播第7期|如何对 OceanBase 进行 SQL 诊断和调优

OceanBase 数据库

数据库 直播 课程 OceanBase 开源 OceanBase 社区版

如何用 Serverless 让 SaaS 获得更灵活的租户隔离、更优的资源开销

碌碌无为小码农

Java 架构 面试 经验分享 编程语言、

阿里最新丰碑:国内第一本凤凰架构,全面构建可靠大型分布式系统

碌碌无为小码农

Java 架构 程序人生 编程语言 经验分享

Redis:我是如何与客户端进行通信的

碌碌无为小码农

Java 面试 程序人生 编程语言 经验分享

【笔记】学《郭东白的架构课》:08|架构师如何在一定时间内最大化自己的增量价值?

术子米德

架构师成长笔记

【笔记】学《郭东白的架构课》:05|法则二:研发人员的人性需求是如何影响架构成败的?

术子米德

架构师成长笔记

微软声称创造了ETL的新纪录——在30分钟内完成1TB的数据存储量_.NET_Jonathan Allen_InfoQ精选文章