【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

使用 AWS Glue 和 Amazon Athena 实现无服务器的自主型机器学习

  • 2019-10-31
  • 本文字数:2220 字

    阅读完需:约 7 分钟

使用 AWS Glue 和 Amazon Athena 实现无服务器的自主型机器学习

您是否遇到过需要根据某些属性划分数据集的情况?K-means 是用于划分数据的最常见的机器学习算法之一。该算法能够将数据分成不同的组 (称为_集群_)。每个样本都被分配到一个集群,这样,相比分配到其他集群中的样本,分配到同一集群中的样本彼此之间更相似。


在这篇博客文章中,我将介绍使用 AWS Glue 提取位于 Amazon S3 上有关出租车行驶情况的数据集,并使用 K-means 根据行车坐标将数据分成 100 个不同的集群。然后,我会使用 Amazon Athena 查询行驶次数和每个集群的大概区域。最后,我会使用 Amazon Athena 来计算行驶次数最多的四个区域的坐标。使用 AWS Glue 和 Amazon Athena 都可以执行这些任务,无需预置或管理服务器。

解决方案概述

我将使用在以前的博客文章中用过的纽约市出租车数据集:使用 AWS Glue、Amazon Athena 和 Amazon QuickSight 协调、查询和可视化各个提供商的数据。我将使用 2016 年 1 月份包含绿色出租车行驶数据的表。


我将向您展示 AWS Glue 作业脚本,该脚本使用 Spark 机器学习 K-means 集群库,基于坐标划分数据集。该脚本通过加载绿色出租车数据并添加指示每一行被分配到哪个集群的列来执行作业。该脚本采用 parquet 格式将表保存到 Amazon s3 存储桶 (目标文件)。可以使用 Amazon Athena 查询存储桶。


我们来考虑下面这个问题:将出租车行驶数据集平均分配到所有已注册接客地点之间的 100 个不同的组 (集群) 中 (接客地点由


pickup_longitude 和


pickup_latitude 列指定)。为了解决这个问题,AWS Glue 脚本要读取输入表,然后使用 Spark 机器学习库实现 K-means,并将集群数量设为 100。结果采用 parquet 格式存储在 Amazon S3 存储桶中,您可以使用 Amazon Athena 进行查询。

演示

执行 AWS Glue 作业

请遵循以下步骤:


  1. 在 AWS 管理控制台中,转到 AWS Glue 控制台。为 AWS Glue 爬网程序 (在数据目录中创建表定义) 创建要将表写入其中的新数据库。

  2. 创建一个指向以下路径的新爬网程序:

  3. Bash


   s3://serverless-analytics/glue-blog -- 设置为按需运行
复制代码


![](https://d2908q01vomqb2.awsstatic-china.com/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2017/12/04/serverless-unsupervised-ml-2-1.gif)
复制代码


  1. 运行该爬网程序。

  2. 确保爬网程序对包含以下属性的绿色表进行分类。

  3. 将脚本文件 MLkmeans.py 上传到其中一个 S3 存储桶中。

  4. 添加新的 AWS Glue 作业,为该作业选择一个名称和角色,从“您提供的现有脚本”中选择运行作业的选项,再选择已上传脚本的 S3 路径,然后为临时文件选择 S3 路径。选择两次 Next,然后选择 Finish。

  5. 编辑脚本。

  6. 选择作业,然后选择要编辑的选项:

  7. 编辑您要将结果存储到其中的 destination 变量 (下图中的第 17 行)。

  8. 使用以前运行的爬网程序所创建绿表的数据库和表名称编辑 namespacetablename (下图中的第 18 和 19 行)。

  9. 运行 AWS Glue 作业。

  10. 验证是否已在目标路径中创建 parquet 文件。

  11. 创建一个指向目标路径的新爬网程序。

  12. 在目标路径上运行爬网程序,以在 AWS Glue 数据目录中创建指向新转换数据集的新表。

如何使用 Athena 查询结果

在爬网程序完成对 AWS Glue 提取、转换和加载 (ETL) 作业创建的 parquet 数据集的分析后,数据目录中应生成一个具有以下列的表:



预测列由 k-means 算法添加,并包含一个表示分配给每行的集群 ID 的整数。


我们来看一个例子,在 Amazon Athena 中用下面的查询列出所有计算的集群:


SQL


SELECT  count(*) as count,      (max(pickup_latitude) - min(pickup_latitude))*(max(pickup_longitude) - min(pickup_longitude)) as approximate_cluster_area , prediction  FROM RESULTDATABASE.RESULTTABLENAME group by prediction  order by prediction
复制代码


当您将


RESULTDATABASE.RESULTTABLENAME 替换为您的结果表名称和数据库时,查询应类似于以下内容:



结果显示由 count (计数) 列描述的每个地理区域内的出租车接客次数,以及由


approximate_cluster_area 列描述的每个地区覆盖的面积。


我们来看另一个例子,列出活动最多的 10 个集群并计算其中心坐标:


SQL


SELECT count(*) AS count,         avg(pickup_latitude) AS latitute,         avg(pickup_longitude) AS longitude,         predictionFROM RESULTDATABASE.RESULTTABLENAMEGROUP BY  predictionORDER BY  count DESC limit 10
复制代码


当您将 RESULTDATABASE.RESULTTABLENAME 替换为您的结果表名称和数据库时,查询应类似于以下内容:



结果将显示行驶次数最多的 10 个集群。如果我们使用 Amazon Quicksight 地理空间可视化功能在地图上绘制这些坐标,会得到一个类似于下图的图像:


总结

在这篇博客文章中,您学到了如何利用 AWS Glue 和 Amazon Athena 来使用自主型机器学习算法,而无需启动或管理服务器。在示例中,我们基于行车坐标将一个出租车行驶数据集分成 100 个不同的组。使用每个组的区域和行驶次数等查询数据,可以计算出坐标。


本博客中介绍的解决方案还可以用于其他数据集,只需稍加修改。您可以使用这些解决方案解决您自己的使用案例需求。我期待收到您的反馈意见和建议。



补充阅读

了解如何通过 AWS 构建基于 PMML 的应用程序并生成预测





作者介绍


**



Luis Caro 是 AWS 专业服务的大数据顾问。**他与我们的客户合作,为大数据项目提供指导和技术支持,帮助他们提高使用 AWS 实现的解决方案价值。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/serverless-unsupervised-machine-learning-with-aws-glue-and-amazon-athena/


2019-10-31 08:00644

评论

发布
暂无评论
发现更多内容

为什么 APISIX Ingress 是比 Emissary-ingress 更好的选择?

API7.ai 技术团队

GPT-4炸圈--多模态大模型

江湖修行

人工智能 大模型 GPT ChatGPT GPT-4

《2022年IT行业项目管理调查报告》重磅发布!

禅道项目管理

无需二次开发,SOAP-to-REST 简化企业用户的业务迁移和整合

API7.ai 技术团队

关于文件传输协议,你不知道的事

镭速

Capital

Echo_Wish

学习 进步 笔记 资源 本质

如何让人形机器人“行稳致远”?这篇顶级期刊的论文提出了新方法

优必选科技

机器人

最佳实践|焱融全闪存储实现与美的集团破千万 IOPS 性能

焱融科技

文件存储 分布式文件存储 高性能存储 全闪存储 美的

复旦邱锡鹏:深度剖析 ChatGPT 类大语言模型的关键技术

NLP资深玩家

人工智能 ChatGPT

【Docker】MacOs安装

Aldeo

Docker 云原生

两会代表热议采用ChatGPT指导论文写作:防范抄袭的探索与思考

蓝海大脑GPU

人工智能 深度学习 ChatGPT

使用价值三角方法来全方位分析产品

产品海豚湾

产品 产品经理 产品设计 产品运营 商业洞察

让 API 管理效率更进一步的 API7 DevPortal

API7.ai 技术团队

api 网关 API7

专业HTML文本编辑器:BBEdit 激活版

真大的脸盆

Mac Mac 软件 文本编辑器 文本编辑

最强阿里及大厂350道面试大全:框架+数据库+并发+开源+微服务

Java你猿哥

Java 数据库 架构 微服务 面经

全球运营商的新共识:2025走向自智网络L4

脑极体

自智网络

干货 | BitSail Connector开发详解系列一:Source

字节跳动数据平台

开源 数据集成 数据引擎 企业号 3 月 PK 榜

TCP 三次握手,给我长脸了噢

程序员小富

TCP

微帧自研|客观评价模型与主观DMOS分数拟合的分享与实用性探讨

微帧Visionular

计算机视觉 视频编解码

易观:正视GPT-4功能缺陷与能力局限可更好探索大模型应用

易观分析

科技

软件测试/测试开发丨学习Docker就应该掌握的dockerfile语法与指令

测试人

Docker 软件测试 测试开发

百度版ChatGPT:文心一言发布会盛大召开!

雪奈椰子

设计模式-策略模式

黑客不够黑

设计模式 策略模式

字节跳动DataLeap数据血缘实践

Openlab_cosmoplat

数据 开源社区 数据血缘

软件测试/测试开发丨Docker 镜像构建可以分享的快乐

测试人

Docker 软件测试 测试开发

openGemini正式加入openEuler DB SIG,携手开展全方面技术创新

华为云开源

时序数据库

屡试不爽!一份阿里Java程序性能实战笔记,啃完让你程序快上200%

Java你猿哥

Java ssm 面经

2 万字长文:声明式配置技术概述

Peefy

DevOps 编程语言 开发者工具 #Kubernetes# #开源

李彦宏文心一言发布会 highlight

B Impact

DevData Talks 直播预告 | 微众银行的研发效能实践有哪些经验?

思码逸研发效能

研发效能 DevData Talks

在追求卓越的路上,面对压力时,推荐你这二个做法。

叶小鍵

使用 AWS Glue 和 Amazon Athena 实现无服务器的自主型机器学习_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章