抖音技术能力大揭密!钜惠大礼、深度体验,尽在火山引擎增长沙龙,就等你来! 立即报名>> 了解详情
写点什么

微软发布 Azure 数据工厂

2015 年 9 月 07 日

那些以数据为重心的云提供商正试图使其设施中的数据收集和存储变得更加容易。为了使云端和本地设备间的数据移动更方便,微软近期发布了ADF,即 Azure 数据工厂(Azure Data Factory)的通用版本。然而,这项按次付费的业务并没有作为专业的 ETL(Extract Transform Load)工具出现,而是定位成微软分析套件的一个组成部分。

在本月(2015 年 8 月)早些时候微软的一篇机器学习的博客中,微软的副总裁 Joseph Sirosh描述了 ADF 并且阐述了这项业务所带来的益处。

通过使用 ADF,现有的数据处理服务可以被编排成数据管道(data pipeline),随之可以在云端获得高可用性并且被管理。这些数据管道可以被调度以用于数据注入、准备、变换、分析和发布的场景,并且 ADF 还会对所有的复杂数据和处理中的依赖项进行管理和编排,从而无须人工干预。ADF 实现方案可以迅速创建并且部署到云端,它可以连接越来越多的本地和云端数据源。

通过使用 ADF,你的业务可以充分享用完全可管理的云服务的好处,而不必购买任何硬件;利用自动化的云资源管理可以减少成本;使用全球化部署的数据传输设施,你还可以高效地移动数据。你可以方便的监控和管理复杂的调度计划和数据依赖,所有这些都通过一个提供监控管理功能的直观的人机界面来实现,通过 Azure 门户你可以访问它。最后开发者还可以通过熟悉的 Visual Studio 插件快速地完成方案创建和部署。

ADF 通过由活动编排而成的管道来处理数据集。数据集(dataset)描述了给定数据存储中的数据结构,ADF 提供了很多数据存储的连接器,其中包括Azure SQL、Azure DocumentDB、本地SQL Server、本地Oracle 数据库、本地Teradata 数据库、本地MySQL 数据库等等。ADF 中的活动(activities)在给定的数据集上执行操作,操作可能是进行数据移动,也可能是完成数据转换。数据移动活动负责在数据端点间传送数据,比如从数据存储中拷贝数据数据转换活动获取原始数据并对其执行查询,ADF 中有七个可用的转换活动,它们中的大部分依赖基于Hadoop 的 Azure HDInsight 服务,包括:

为了访问本地端点,ADF 使用了被称为数据管理网关的工具。网关运行在本地的windows 服务器上,使用加密的证书作为凭证来访问本地的数据存储。外发的请求都在标准的HTTP 端口上完成。网关实例是和特定的数据工厂绑定的,并且网关实例也只能运行在给定的服务器上。所以,如果用户需要使用多个数据工厂服务,就需要使用一组服务器并在上面运行相应的网关。为了创建数据工厂,开发者可以使用Azure Portal(beta 版本)、PowerShell、Visual Studio 或者REST API。

图片来源: https://azure.microsoft.com/en-us/documentation/articles/data-factory-introduction/

ADF 是微软在 7 月发布的 Cortana 分析套件的一部分。套件中的其它产品包括 Azure Data Catalog、Azure Machine Learning、HDInsight、Power BI 和 Azure Stream Analytics。微软是如何计划将这些独立的服务集成到单独的套件中呢?在 ZDNet 关于 ADF 的文章中,Andrew Brust 解释了这个封装和集成是如何工作的。

ADF 通用版本定于“今年秋季的晚些时候”发布,并承诺为所有 Azure Big Data 和分析服务使用者提供单独的认购,相关价格也会在秋天发布。

微软还承诺为使用 Cortana Analytics 的客户带来更多的、集成的业界垂直解决方案。它们是些基本的用例模板和加速器,为包括制造、医疗保健和金融服务业在内的那些领域提供帮助。就其本身来说可能它们还不是很成熟的产品,也肯定无法组成真正的一体化服务,但它们仍然可以作为经典的案例,为如何一起使用这些服务提供帮助。

一些特定的服务已经完成了点到点的集成。比如,Azure Data Factory 已经可以连接到 Azure Stream Analytics,而后者也已经可以连接到 Event Hubs。Power BI 也知道如何同运行在HDInsight 上的Apache Spark 进行交互。而Azure Data Lake 则仿真了HDFS(Hadoop 的分布式文件系统),它支持与Power BI 中 Power Query 组件的原生连接。Azure SQL Data Warehouse 使用了微软 PolyBase 的技术作为其特性,这种技术也集成到 HDInsight 和其它 Hadoop 发行版本中。

微软看起来并不想将 ADF 服务作为传统的(云使能)ETL 产品,如同 Informatica 和 SnapLogic 那样。虽然 ADF 也可以执行一些类似的注入和转换功能,但它看起来主要定位在分析场景和从不相干的数据集中获取洞察。 ADF 的定价 基于其管道中的活动,而且根据活动发生频率是否频繁,活动是在云端还是在本地端点运行,收费也会有很大的不同。用户为数据移动支付的费用是以小时为基础的,而没有激活的管道只会有名义上的计费而无实际的支出。

如果要学习更多的东西,可以看一下产品的学习地图,或者读一下它的 FAQ

查看英文原文 Microsoft Releases Azure Data Factory

2015 年 9 月 07 日 19:001828

评论

发布
暂无评论
发现更多内容

做一次黑客,入侵一次服务器

叫我阿柒啊

Docker 入侵 docker远程 redis注入

MindSpore:不用摘口罩也知道你是谁

华为云开发者社区

算法 人脸识别 口罩 mindspore 口罩人脸

并发王者课 - 青铜 3: 双刃剑-理解多线程带来的安全问题

技术八点半

Java 多线程 并发 王者并发课

Hive窗口函数与分析函数

大数据技术指南

hive 5月日更

仰望天空,脚踏实地 —— CODING OKR 全新上线

CODING DevOps

团队管理 OKR

程序员写好技术文章的几点小技巧

阿里巴巴云原生

程序员 云原生 写作 写作技巧

华为HMS生态和1+8+N的交叉点,点透棋局的华为帐号

脑极体

Nginx的11个执行阶段详解

运维研习社

nginx 运维 源码剖析 5月日更

参与 Apache 顶级开源项目的 N 种方式,Apache Dubbo Samples SIG 成立!

阿里巴巴云原生

开源 开发者 云原生 dubbo 中间件

阿里云原生开源大家族加入中科院软件所开源软件供应链点亮计 - 暑期 2021

阿里巴巴云原生

开源 容器 微服务 开发者 云原生

飞猪基于 Serverless 的云+端实践与思考

阿里巴巴云原生

Serverless 容器 运维 云原生 监控

记十亿级Es数据迁移mongodb成本节省及性能优化实践

杨亚洲(专注mongodb及高性能中间件)

MySQL 数据库 mongodb 架构 分布式数据库mongodb

每个开发人员都应该知道的 10 个 GitHub 仓库

LeanCloud

GitHub web开发

ETL-KETTLE工具使用

this

Java 数据 数据同步 ETL

☕【JVM 技术之旅】让你完全攻克内存溢出(OOM)这一难题(上)

李浩宇/Alex

JVM OOM 异常 Exception 5月日更

iOS面试--拼多多最新iOS开发面试题

一意孤行的程序员

ios swift 面试 ios开发 知识分享

玩转直播系列之消息模块演进(3)

vivo互联网技术

Java 服务器 消息系统 直播技术

高级软件工程师必备的五大技能

架构精进之路

5月日更

部署混合云环境的5大挑战

浪潮云

云计算

字节跳动Java岗一二三面全经过分享

北游学Java

Java 字节跳动 面试

我粉了!阿里大牛从内部带出来的百亿级高并发系统,从基础到实战、面面俱到

云流

Java 程序员 架构 面试

百度 Serverless 架构揭秘与应用实践

百度开发者中心

百度 Serverless 云原生 开源项目

阿里P9架构师强烈推荐:想拿60W以上年薪必看,Java高并发四套小册。

Java架构追梦

Java 阿里巴巴 架构 面试 高并发

2021 DevOpsDays 东京站完美收官 | CODING 专家受邀分享最新技术资讯

CODING DevOps

CI/CD DevOpsDays CODING DevOps

老生常谈:面试必问“三次握手,四次挥手”这么讲,保证你忘不了

程序员小毕

Java 程序员 面试 TCP 网络

Spark知识点简单总结

五分钟学大数据

大数据 spark 5月日更

首届HarmonyOS开发者创新大赛颁奖典礼于深圳召开

科技汇

超级详细!全网独家首发的SpringCloud Alibaba 到底有多强?

云流

Java 程序员 架构 面试

「DataPipeline」完成数千万B轮融资,加速构建中国的世界级数据中间件产品

DataPipeline数见科技

融资

推荐计划 | 推荐好友用 CODING,获高额返现奖励

CODING DevOps

团队管理 敏捷开发 研发工具 开发团队

Kubernetes 普及系列:容器基础入门

CODING DevOps

Kubernetes

Study Go: From Zero to Hero

Study Go: From Zero to Hero

微软发布Azure数据工厂-InfoQ