2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Amazon SageMaker Processing – 完全托管的数据处理和模型评估

  • 2019-12-11
  • 本文字数:3057 字

    阅读完需:约 10 分钟

Amazon SageMaker Processing – 完全托管的数据处理和模型评估

今天,我们非常高兴地推出 Amazon SageMaker Processing,这是 Amazon SageMaker 的一项新功能,可让您轻松地在完全托管的基础设施上运行预处理、后处理和模型评估工作负载。


训练准确的机器学习 (ML) 模型需要许多不同的步骤,但没有什么比预处理数据集更重要,例如:


  • 将数据集转换为您所使用的 ML 算法期望的输入格式,

  • 将现有功能转换为更具表现力的表示形式,例如一键编码分类功能,

  • 重新调整或归一化数值特征,

  • 设计高级功能,例如用 GPS 坐标替换邮寄地址,

  • 为自然语言处理应用程序清理和标记文本,

  • 等等!


这些任务包括在数据集上运行定制脚本(我被告知在没有月亮的天空下),并保存处理后的版本,以供以后的培训作业使用。如您所料,对 ML 团队来说,手动运行它们或必须构建和扩展自动化工具的前景并不令人兴奋。对于后处理作业(筛选、整理等)和模型评估作业(针对不同测试集对模型评分)而言,也是如此。


为解决此问题,我们构建了 Amazon SageMaker Processing。下面我来进行更多介绍。


Amazon SageMaker Processing 简介


Amazon SageMaker Processing 推出了新的 Python 开发工具包,使数据科学家和 ML 工程师可以轻松地在 Amazon SageMaker 上运行预处理、后处理和模型评估工作负载。


该开发工具包使用 SageMaker 的内置容器来进行scikit-learn,这可能是最受欢迎的数据集转换库之一。


如果您还需要其他工具,还可以使用自己的 Docker 映像,而不必遵循任何 Docker 映像规范:这为您提供了最大的灵活性,无论是在 SageMaker Processing 还是在 Amazon ECSAmazon Elastic Kubernetes Service 之类的 AWS 容器服务上,甚至在内部,均是如此。


用 scikit-learn 快速演示怎么样? 然后,我将简要讨论如何使用您自己的容器。当然,您可以在 Github 上找到完整的示例。


使用内置的 Scikit-Learn 容器预处理数据


以下是使用 SageMaker Processing 开发工具包来运行 scikit-learn 作业的方法。


首先,让我们创建一个 SKLearnProcessor 对象,传递要使用的 scikit-learn 版本以及对托管基础设施的要求。


Python


from sagemaker.sklearn.processing import SKLearnProcessorsklearn_processor = SKLearnProcessor(framework_version='0.20.0',                                     role=role,                                     instance_count=1,                                     instance_type='ml.m5.xlarge')
复制代码


然后,我们可以像下面这样,运行预处理脚本(稍后将介绍更多有关该操作的内容):


  • 数据集 (dataset.csv) 将自动复制到目标目录 (/input) 下的容器内。如果需要,我们会添加其他输入。

  • 这是 Python 脚本 (preprocessing.py) 读取它的位置。我们也可以将命令行参数传递给脚本。

  • 脚本对命令行进行预处理,将其分为三种方式,然后将文件保存在容器中的 /opt/ml/processing/output/train/opt/ml/processing/output/validation/opt/ml/processing/output/test 下。

  • 作业完成后,所有输出将自动复制到 S3 中的默认 SageMaker 存储桶。


Python


from sagemaker.processing import ProcessingInput, ProcessingOutputsklearn_processor.run(    code='preprocessing.py',    # arguments = ['arg1', 'arg2'],    inputs=[ProcessingInput(        source='dataset.csv',        destination='/opt/ml/processing/input')],    outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'),        ProcessingOutput(source='/opt/ml/processing/output/validation'),        ProcessingOutput(source='/opt/ml/processing/output/test')])
复制代码


就这么简单! 让我们通过查看预处理脚本的框架将所有内容放在一起。


Python


import pandas as pdfrom sklearn.model_selection import train_test_split# Read data locally df = pd.read_csv('/opt/ml/processing/input/dataset.csv')# Preprocess the data setdownsampled = apply_mad_data_science_skills(df)# Split data set into training, validation, and testtrain, test = train_test_split(downsampled, test_size=0.2)train, validation = train_test_split(train, test_size=0.2)# Create local output directoriestry:    os.makedirs('/opt/ml/processing/output/train')    os.makedirs('/opt/ml/processing/output/validation')    os.makedirs('/opt/ml/processing/output/test')except:    pass# Save data locallytrain.to_csv("/opt/ml/processing/output/train/train.csv")validation.to_csv("/opt/ml/processing/output/validation/validation.csv")test.to_csv("/opt/ml/processing/output/test/test.csv")print('Finished running processing job')
复制代码


快速浏览 S3 存储桶,确认文件已成功处理并保存。现在,我可以将它们直接用作 SageMaker 培训作业的输入。


$ aws s3 ls --recursive s3://sagemaker-us-west-2-123456789012/sagemaker-scikit-learn-2019-11-20-13-57-17-805/output


2019-11-20 15:03:22 19967 sagemaker-scikit-learn-2019-11-20-13-57-17-805/output/test.csv


2019-11-20 15:03:22 64998 sagemaker-scikit-learn-2019-11-20-13-57-17-805/output/train.csv


2019-11-20 15:03:22 18058 sagemaker-scikit-learn-2019-11-20-13-57-17-805/output/validation.csv


现在如何使用自己的容器?


使用自己的容器处理数据


比如说您想使用热门的 spaCy 库预处理文本数据。您可以使用以下方法为其定义一个普通 Docker 容器。


Bash


FROM python:3.7-slim-buster# Install spaCy, pandas, and an english language model for spaCy.RUN pip3 install spacy==2.2.2 && pip3 install pandas==0.25.3RUN python3 -m spacy download en_core_web_md# Make sure python doesn't buffer stdout so we get logs ASAP.ENV PYTHONUNBUFFERED=TRUEENTRYPOINT ["python3"]
复制代码


然后,您可以构建 Docker 容器,在本地进行测试,然后将其推送到我们的托管 Docker 注册表服务 Amazon Elastic Container Registry


下一步,可以使用 ScriptProcessor 对象配置处理作业,并传递您已构建和推送的容器的名称。


Python


from sagemaker.processing import ScriptProcessorscript_processor = ScriptProcessor(image_uri='123456789012.dkr.ecr.us-west-2.amazonaws.com/sagemaker-spacy-container:latest',                role=role,                instance_count=1,                instance_type='ml.m5.xlarge')
复制代码


最后,您可以像前面的示例一样运行该作业。


Python


script_processor.run(code='spacy_script.py',    inputs=[ProcessingInput(        source='dataset.csv',        destination='/opt/ml/processing/input_data')],    outputs=[ProcessingOutput(source='/opt/ml/processing/processed_data')],    arguments=['tokenizer', 'lemmatizer', 'pos-tagger'])
复制代码


其余过程与上述过程完全相同:将输入复制到容器内部,将输出从容器复制到 S3


很简单,对不对? 同样,我专注的是预处理,但是您可以运行类似的任务进行后处理和模型评估。不要忘记查看 Github 中的示例。


现已推出!


Amazon SageMaker Processing 现已在提供 Amazon SageMaker 的所有商业区域中推出。


请试一试,并通过 Amazon SageMakerAWS 论坛或您常用的 AWS Support 联系方式向我们发送反馈。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/amazon-sagemaker-processing-fully-managed-data-processing-and-model-evaluation/


2019-12-11 15:35896

评论

发布
暂无评论
发现更多内容

使用Tomcat Native提升Tomcat IO效率

程序那些事

tomcat nio 异步IO 程序那些事 bio

Tronex智能合约APP系统开发|Tronex智能合约软件开发

系统开发

记录一次腾讯c/c++ linux后台开发岗面试经历(面试题含答案)

linux大本营

c++ Linux 腾讯 后台开发 架构师

架构师训练营第 1 期 - 第十二周总结

Todd-Lee

极客大学架构师训练营

找到相同链表的点

落朽

TRONex智能合约APP系统软件开发

系统开发

网易游戏部门Java架构师必看的“完美版”Netty源码笔记

Java架构追梦

Java 学习 源码 架构 Netty

作业-第8周

arcyao

Singleton手绘

raox

极客大学架构师训练营

复盘不止复盘,更是个人认知升级加速器?

Alan

复盘 思维 技术人应知的创新思维模型 28天写作

腾讯T3大牛手把手教你!从外包月薪5K到阿里月薪15K,分享一点面试小经验

欢喜学安卓

android 程序员 面试 移动开发

【小菜学网络】物理层概述

fasionchan

网络编程 计算机网络 网络协议 TCP/IP 物理层

天下武功,唯“拆”不破之MECE原则一| 技术人应知的创新思维模型 (5)

Alan

职场成长 技术人应知的创新思维模型 组合创新 结构化思维 28天写作

学习笔记丨Linux中数据提取相关命令

Liuchengz.

Linux ubuntu #Ubuntu

基于 getty 的分布式事务框架seata-golang 通信模型详解

apache/dubbo-go

dubbo dubbo-go dubbogo seata

第三周设计作业

cc

第三周学习心得

cc

与技术总监另起炉灶的CTO | 法庭上的CTO(8)

赵新龙

CTO 法庭上的CTO

Week 12

黄立

iOS面试高薪,进阶 你会这些呢嘛?

ios swift 面试

架构师训练营第三周课后作业

万有引力

Github上标星82.1K+star面试笔记,可以帮你搞定95%以上的Java面试,已经帮助多人拿下offer

学习 程序员 面试 计算机

《人工智能:一种现代的方法(第3版)》PDF

计算机与AI

人工智能 学习

架构师养成第三课

万有引力

架构师训练营第 1 期 - 第十二周作业

Todd-Lee

极客大学架构师训练营

Kindle的又一用处

孙苏勇

读书

实践出真知!华为Android面试真题解析,附超全教程文档

欢喜学安卓

android 程序员 面试 移动开发

2021数字化投资规划,你做好了吗?

张凯峰

架构 业务架构

腾讯T1~T9级别工程师具备专业的能力及知识点总结。

Linux服务器开发

程序员 腾讯 工程师 Linux服务器开发 岗位级别

架构之书:审美与《重构》

lidaobing

架构

生产环境全链路压测建设历程之六 淘宝网2012年双十一的痛

数列科技杨德华

Amazon SageMaker Processing – 完全托管的数据处理和模型评估_行业深度_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章