10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

微软声称创造了 ETL 的新纪录——在 30 分钟内完成 1TB 的数据存储量

  • 2008-03-10
  • 本文字数:1211 字

    阅读完需:约 4 分钟

微软和 Unisys 声称他们创造了向关系型数据库载入信息的纪录。非官方的评测结果是:数据提取、转换和装载工具(简称 ETL 工具)在不到 30 分钟的时间内将 1TB 的 TPC-H 数据存储到关系数据库中。对于此数据量,此前的纪录是由 Informatica 创建的 45 分钟。

声明的详情如下:

从非结构化数据文件中分析得到超过 1TB 的数据,通过网络传送并装载到目标数据库中,而这只用了不到 30 分钟的时间,超越了此前所有公开使用 ETL 工具纪录,是一个新的世界纪录。它的速率达到了 2TB 每小时(每秒超过 650MB),更准确地说,是在 1794 秒以内完成 1.18TB 的非结构化文件数据装载,这相当于每 25 分 20 秒就完成 1TB 或是每小时 2.36TB。

ETL 的评测使用了 TPC-H 数据,但这并非是事务处理性能委员会( Transaction Processing Performance Council )的官方评测,但这并不影响像 Informatica 这样的公司去吹嘘他们的产品性能。微软承认 ETL 评测很重要,因为他们能代表现实世界对产品的应用需求。

在如今的业务中,只有极少数的数据会一直保留在目标系统中而无须进行标准化以及载入前的错误处理,而在极大多数情况下,对大量数据装载的处理极有意义。数据的集成涉及到复杂的转换规则、错误检验和数据标准化技术。像 SSIS 这样的 ETL 工具就可以实现这些功能,如,在不同的系统间进行数据的移动、数据的再格式化、完整性校验、关键值查询、衍生跟踪等,SSIS 也证明了它是一个有能力和有着多方面用途的 ETL 工具。现在,它又向公众展示它是 ETL 工具中最快的一员。

实现这一个漂亮成绩的硬件当然也是非标准的,它也不是大多数公司能企及的。

数据库服务器是运行在 Unisys ES70000 企业级服务器上的,它拥有 32 颗 Intel® 双核 XeonTM 3.4G(7140M)处理器,256GB 内存和 8 个双端口 4G 的 HBA 网卡。SQL Server 的数据是存储在一个拥有 165 个硬盘插槽的 EMC Clariion CX3-80 SAN 中(数据吞吐能力可以达到 146GB/15 krpm)。数据库服务器是预发布 SQL Server 2008 企业版(版本号为 V10.0.1300.4,是“2008 二月份 CTP 版”之前的一个版本),操作系统是 Windows Server 2008 x64 Datacenter 版本。

有四台服务作为提供数据源,它们模拟着现代企业中各种不同系统的实际数据来源。每一个源服务器运行一个 SSIS 包将数据通过网络发送到数据库服务器上。源服务器上的 SSIS 是基于 SQL Server build V10.0.1300.4 版本,操作系统是 Windows Server 2008。原始数据是从非关系型数据文件中获得的,这些文件都是由 DBGEN 生成的。

源服务器是四台 Unisys ES3220L 服务器,操作系统是 Windows 2008 x64 企业版。每一台设备都配备了 2 颗 Inter®Quad Core 2GHz 处理器、4GB 内存和一个双端口 4Gbit Emulex HBA 以及 Inter PRO1000/PT 网卡。原始数据是从二台拥有 45 个硬盘插槽的 EMC Clariion CX600 SAN 中进行读入的。

关于这一评测的白皮书尚未发布。查看英文原文 Microsoft Claims to Hold the ETL Record at 1 TB in 30 Minutes

2008-03-10 23:212266
用户头像

发布了 90 篇内容, 共 16.3 次阅读, 收获喜欢 11 次。

关注

评论

发布
暂无评论
发现更多内容

领跑数字化转型:望繁信科技荣登「2024智能自动化技术商Top 15」榜单

望繁信科技

数据挖掘 流程挖掘 流程资产 流程智能

HCDG天津站精彩回顾 | AI高效开发, ModelArts技术动手工作坊

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号2024年4月PK榜 华为云HCDG

如何基于Django中的WebSockets和异步视图来实现实时通信功能

不在线第一只蜗牛

django Web websockets

以算力深挖数据应用价值!和鲸助力北京市市场监管数据应用创新竞赛圆满收官!

ModelWhale

大数据 数据应用 数据大模型

文本向量化模型新突破——acge_text_embedding 勇夺 C-MTEB 榜首

中杯可乐多加冰

rag 文本嵌入模型 文本向量化 文本嵌入

香港的云主机怎么样?为网站运行和响应有哪些帮助?

一只扑棱蛾子

云主机

Pandabuy VS Wegobuy哪个代购系统强?类似软件哪家公司开发

tbapi

淘宝代购系统 Pandabuy wegobuy 代购系统

实践探讨Python如何进行异常处理与日志记录

华为云开发者联盟

Python 开发 华为云 华为云开发者联盟 企业号2024年4月PK榜

大模型,为什么非得和「弱智吧」过不去?

脑极体

AI

网站打开504,504网关超时可能是哪些原因导致

德迅云安全杨德俊

拓展海外社媒市场,云手机抢占先机

Ogcloud

云手机 海外云手机 云手机海外版 社媒运营 社媒营销

人民日报媒体技术公司与华为达成鸿蒙合作 助力超千家党媒单位融入鸿蒙生态

最新动态

大模型区域落地再加速!百度“文心中国行”西部首站落地成都锦江

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 文心一言 文心大模型

大模型,为什么非得和「弱智吧」过不去?

白洞计划

AI

性能问题分析优化实践案例

老张

高可用 性能优化 性能测试 稳定性保障

IAM赋能数字化转型

芯盾时代

iam 统一身份认证 业务安全

提示词优化的自动化探索:Automated Prompt Engineering

Baihai IDP

程序员 AI 企业号 4 月 PK 榜 Prompt Engineering 提示词工程

青椒云桌面玩转AIGC应用部署

青椒云云电脑

云桌面 AIGC

淘宝/天猫商品评论API:实时追踪用户反馈,洞悉市场动态

技术冰糖葫芦

api 货币化 API 文档 pinduoduo API

Appium控件互动攻略:提升自动化测试效率的必备方法大揭秘!

测吧(北京)科技有限公司

测试

《2023年度快团团行业洞察报告》呱呱爆品重磅发布!

极客天地

揭露 FileSystem 引起的线上 JVM 内存溢出问题

vivo互联网技术

JVM 内存泄露 OOM 内存溢出

大模型的现在进行时:走出对话框,走向产业端

Alter

微软声称创造了ETL的新纪录——在30分钟内完成1TB的数据存储量_.NET_Jonathan Allen_InfoQ精选文章