AI 年度盘点与2025发展趋势展望,50+案例解析亮相AICon 了解详情
写点什么

Amazon SageMaker 现已推出:Deep Graph Library

  • 2019-12-11
  • 本文字数:2348 字

    阅读完需:约 8 分钟

Amazon SageMaker 现已推出:Deep Graph Library

今天,我们很高兴地宣布,为简化图神经网络的实现而构建的开源库 Deep Graph Library 现已在 Amazon SageMaker 上推出。


近年来,由于具有从复杂数据(例如自由文本、图像或视频)中提取复杂模式的强大能力,深度学习席卷了整个世界。但是,许多数据集不属于这些类别,使用图形更容易表达。 我们的直觉告诉我们,像卷积神经网络或递归神经网络这样的传统神经网络架构不适用于此类数据集,因此需要一种新的方法。


图神经网络初级读本


图神经网络 (GNN) 是当今机器学习领域最蓬勃发展的方向之一,这些参考文献将带您入门。


GNN 用于在数据集上训练预测模型,例如:


  • 社交网络数据集,其中的图形显示熟人之间的联系;

  • 推荐系统数据集,其中的图形显示顾客与物品之间的互动;

  • 化学分析数据集,其中化合物被建模为由原子和化学键组成的图形;

  • 网络安全数据集,其中的图形描述了源 IP 地址和目标 IP 地址之间的连接;

  • 等等!


在大多数情况下,这些数据集非常庞大,并且只有部分标记。以一个欺诈检测场景为例,在该场景中,我们将尝试通过分析某人与已知欺诈者的联系,来预测其为欺诈行为者的可能性。这个问题可以定义为半监督学习任务,其中只有一小部分图节点将被标记(“欺诈者”或“合法者”)。与尝试构建一个大型的手工标记数据集,并对其进行“线性化”以应用传统的机器学习算法相比,这应该是一个更好的解决方案。


解决这些问题需要特定领域的知识(零售、金融、化学等)、计算机科学知识(Python、深度学习、开源工具)和基础设施知识(培训、部署和扩展模型)。很少人能够掌握所有这些技能,这就是我们需要诸如 Deep Graph Library Amazon SageMaker 之类的工具的原因。


Deep Graph Library 简介


Deep Graph Library (DGL) 于 2018 年 12 月首次在 Github 上发布,是一个 Python 开源库,可帮助研究人员和科学家利用其数据集快速构建、训练和评估 GNN。



DGL 建立在流行的深度学习框架之上,例如 PyTorch Apache MXNet。如果您熟悉其中之一,就会发现使用起来得心应手。无论您使用哪种框架,都可以通过这些对初学者友好的示例轻松入门。我还发现 GTC 2019 研讨会的幻灯片和代码非常有用。


一旦完成了玩具示例,就可以开始探索 DGL 中已实现的各种前沿模型了。例如,您可以通过运行以下命令,使用图卷积网路 (GCN) 和 CORA 数据集来训练文档分类模型:


$ python3 train.py --dataset cora --gpu 0 --self-loop


所有模型的代码均可供查看和调整。这些实现已经过 AWS 团队仔细验证,他们验证了性能声明并确保可以重现结果。


DGL 还包含图形数据集的集合,您可以轻松下载并用于试验。


当然,您可以在本地安装和运行 DGL,但是为了为您提供便利,我们将其添加到了 PyTorch 和 Apache MXNet 的深度学习容器中。这样就可以轻松地在 Amazon SageMaker 上使用 DGL,以在任意规模上训练和部署模型,而不必管理服务器。我将向您展示如何操作。


在 Amazon SageMaker 上使用 DGL


我们在 Github 存储库中为 SageMaker 示例添加了完整的示例:在其中一个示例中,我们使用 Tox21 数据集训练了一个用于分子毒性预测的简单 GNN。


我们尝试解决的问题是,计算出新化合物对 12 种不同靶标(生物细胞内的受体等)的潜在毒性。可以想象,这种分析在设计新药时至关重要,而且无需进行体外实验就能快速预测结果,这有助于研究人员将精力集中在最有希望的候选药物上。


数据集包含 8,000 多种化合物:每种化合物均建模为图形(原子是顶点,原子键是边),并标记 12 次(每个目标一个标记)。我们将使用 GNN 建立一个多标签的二元分类模型,使我们能够预测所考察分子的潜在毒性。


在训练脚本中,我们可以轻松地从 DGL 集合中下载所需数据集。


from dgl.data.chem import Tox21


dataset = Tox21()


Similarly, we can easily build a GNN classifier using the DGL model zoo.


from dgl import model_zoo


model = model_zoo.chem.GCNClassifier(


in_feats=args['n_input'],


gcn_hidden_feats=[args['n_hidden'] for _ in range(args['n_layers'])],


n_tasks=dataset.n_tasks,


classifier_hidden_feats=args['n_hidden']).to(args['device'])


其余代码大部分是原始的 PyTorch,如果您熟悉此库,则使用起来就应该能够驾轻就熟。


要在 Amazon SageMaker 上运行此代码,我们要做的就是使用 SageMaker 模拟器,并传递 DGL 容器的全名并将训练脚本的名称作为超参数。


estimator = sagemaker.estimator.Estimator(container,


role,


train_instance_count=1,


train_instance_type='ml.p3.2xlarge',


hyperparameters={'entrypoint': 'main.py'},


sagemaker_session=sess) code_location = sess.upload_data(CODE_PATH, bucket=bucket, key_prefix=custom_code_upload_location) estimator.fit({'training-code': code_location})


<output removed> epoch 23/100, batch 48/49, loss 0.4684


epoch 23/100, batch 49/49, loss 0.5389


epoch 23/100, training roc-auc 0.9451


EarlyStopping counter: 10 out of 10


epoch 23/100, validation roc-auc 0.8375, best validation roc-auc 0.8495


Best validation score 0.8495


Test score 0.8273


2019-11-21 14:11:03 Uploading - Uploading generated training model


2019-11-21 14:11:03 Completed - Training job completed


Training seconds: 209


Billable seconds: 209


现在,我们可以获取 S3 中经过训练的模型,并将其用于预测大量化合物的毒性,而无需进行实际实验。真是好用!


现已推出!


您现在就可以在 Amazon SageMaker 上使用 DGL。


请试一试,并通过 DGL 论坛Amazon SageMakerAWS 平台或您常用的 AWS Support 联系方式向我们发送反馈。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/now-available-on-amazon-sagemaker-the-deep-graph-library/


2019-12-11 15:32641

评论

发布
暂无评论
发现更多内容

Spring Cloud Stream 编程模型的基础知识,很多老司机都不知道

Java 程序员 后端

Spring Cloud入门-Consul服务注册发现与配置中心(Hoxton版本)

Java 程序员 后端

SpringBoot+Redis基本操作,实现排行榜功能,javasql优化面试题

Java 程序员 后端

【Flutter 专题】13 图解最基础的 http 请求方式

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 11月日更

spring boot增删改查,javassm框架面试重点

Java 程序员 后端

Spring Boot核心技术之Rest映射以及源码的分析,java从入门到放弃

Java 程序员 后端

Spring cloud stream【入门介绍】,java开发实例大全云盘

Java 程序员 后端

Spring--JdbcTemplate基本使用,三年老Java经验面经

Java 程序员 后端

springboot+mybatis+druid整合笔记,java程序设计案例教程课后答案

Java 程序员 后端

Spring 使用Validation 验证框架的问题详解,springboot原理

Java 程序员 后端

springboot+Redis+Shiro,java编程技术高级八大类

Java 程序员 后端

Spring Cloud入门-Admin服务监控中心(Hoxton版本),java开发面试视频

Java 程序员 后端

Spring MVC框架:第十二章:运行原理,腾讯Java面试题

Java 程序员 后端

Spring Retry不为人知的技巧,你知道几个?,java程序设计精编教程第三版答案耿祥义

Java 程序员 后端

Spring Boot 实战(9) springboot 整合 JPA,2021必看

Java 程序员 后端

Spring02:基本配置与依赖注入,贼好用的Java学习路线集合

Java 程序员 后端

SpringBoot 实战:优雅的使用枚举参数(原理篇,这一次带你搞懂Spring代理创建过程

Java 程序员 后端

Springboot 整合Shiro 轻量级权限框架,从数据库设计开始带你快速上手shiro

Java 程序员 后端

spring boot 整合Swagger2 构建API文档,linux学习路线图

Java 程序员 后端

Spring Boot 谷粒学院、谷粒商城项目问题汇总,tomcat面试题

Java 程序员 后端

spring-cloud-kubernetes的服务发现和轮询实战(含熔断)

Java 程序员 后端

Spring Cloud:第四章:Hystrix断路器,mybatis面试常问问题

Java 程序员 后端

SpringBoot2----Web模块的基本注解,美的java面试题

Java 程序员 后端

Spring Cloud Gateway限流实战,万字详解微服务的哨兵机制

Java 程序员 后端

Spring Cloud 分布式事务详解及LCN解决方案,mybatis底层原理

Java 程序员 后端

【LeetCode】提莫攻击Java题解

Albert

算法 LeetCode 11月日更

Springboot 使用Quartz定时器执行多个定时任务 配置篇

Java 程序员 后端

SpringBoot+Redis基本操作,实现排行榜功能(1),springmvc教程下载

Java 程序员 后端

Spring 全家桶,永远滴神,spring框架教程

Java 程序员 后端

Spring-boot使用logback实现日志配置,java自学视频网站

Java 程序员 后端

SpringBoot + Vue 开发前后端分离的旅游管理系统,unixlinux编程实践教程

Java 程序员 后端

Amazon SageMaker 现已推出:Deep Graph Library_行业深度_AWS_InfoQ精选文章