阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

Amazon SageMaker 现已推出:Deep Graph Library

  • 2019-12-11
  • 本文字数:2348 字

    阅读完需:约 8 分钟

Amazon SageMaker 现已推出:Deep Graph Library

今天,我们很高兴地宣布,为简化图神经网络的实现而构建的开源库 Deep Graph Library 现已在 Amazon SageMaker 上推出。


近年来,由于具有从复杂数据(例如自由文本、图像或视频)中提取复杂模式的强大能力,深度学习席卷了整个世界。但是,许多数据集不属于这些类别,使用图形更容易表达。 我们的直觉告诉我们,像卷积神经网络或递归神经网络这样的传统神经网络架构不适用于此类数据集,因此需要一种新的方法。


图神经网络初级读本


图神经网络 (GNN) 是当今机器学习领域最蓬勃发展的方向之一,这些参考文献将带您入门。


GNN 用于在数据集上训练预测模型,例如:


  • 社交网络数据集,其中的图形显示熟人之间的联系;

  • 推荐系统数据集,其中的图形显示顾客与物品之间的互动;

  • 化学分析数据集,其中化合物被建模为由原子和化学键组成的图形;

  • 网络安全数据集,其中的图形描述了源 IP 地址和目标 IP 地址之间的连接;

  • 等等!


在大多数情况下,这些数据集非常庞大,并且只有部分标记。以一个欺诈检测场景为例,在该场景中,我们将尝试通过分析某人与已知欺诈者的联系,来预测其为欺诈行为者的可能性。这个问题可以定义为半监督学习任务,其中只有一小部分图节点将被标记(“欺诈者”或“合法者”)。与尝试构建一个大型的手工标记数据集,并对其进行“线性化”以应用传统的机器学习算法相比,这应该是一个更好的解决方案。


解决这些问题需要特定领域的知识(零售、金融、化学等)、计算机科学知识(Python、深度学习、开源工具)和基础设施知识(培训、部署和扩展模型)。很少人能够掌握所有这些技能,这就是我们需要诸如 Deep Graph Library Amazon SageMaker 之类的工具的原因。


Deep Graph Library 简介


Deep Graph Library (DGL) 于 2018 年 12 月首次在 Github 上发布,是一个 Python 开源库,可帮助研究人员和科学家利用其数据集快速构建、训练和评估 GNN。



DGL 建立在流行的深度学习框架之上,例如 PyTorch Apache MXNet。如果您熟悉其中之一,就会发现使用起来得心应手。无论您使用哪种框架,都可以通过这些对初学者友好的示例轻松入门。我还发现 GTC 2019 研讨会的幻灯片和代码非常有用。


一旦完成了玩具示例,就可以开始探索 DGL 中已实现的各种前沿模型了。例如,您可以通过运行以下命令,使用图卷积网路 (GCN) 和 CORA 数据集来训练文档分类模型:


$ python3 train.py --dataset cora --gpu 0 --self-loop


所有模型的代码均可供查看和调整。这些实现已经过 AWS 团队仔细验证,他们验证了性能声明并确保可以重现结果。


DGL 还包含图形数据集的集合,您可以轻松下载并用于试验。


当然,您可以在本地安装和运行 DGL,但是为了为您提供便利,我们将其添加到了 PyTorch 和 Apache MXNet 的深度学习容器中。这样就可以轻松地在 Amazon SageMaker 上使用 DGL,以在任意规模上训练和部署模型,而不必管理服务器。我将向您展示如何操作。


在 Amazon SageMaker 上使用 DGL


我们在 Github 存储库中为 SageMaker 示例添加了完整的示例:在其中一个示例中,我们使用 Tox21 数据集训练了一个用于分子毒性预测的简单 GNN。


我们尝试解决的问题是,计算出新化合物对 12 种不同靶标(生物细胞内的受体等)的潜在毒性。可以想象,这种分析在设计新药时至关重要,而且无需进行体外实验就能快速预测结果,这有助于研究人员将精力集中在最有希望的候选药物上。


数据集包含 8,000 多种化合物:每种化合物均建模为图形(原子是顶点,原子键是边),并标记 12 次(每个目标一个标记)。我们将使用 GNN 建立一个多标签的二元分类模型,使我们能够预测所考察分子的潜在毒性。


在训练脚本中,我们可以轻松地从 DGL 集合中下载所需数据集。


from dgl.data.chem import Tox21


dataset = Tox21()


Similarly, we can easily build a GNN classifier using the DGL model zoo.


from dgl import model_zoo


model = model_zoo.chem.GCNClassifier(


in_feats=args['n_input'],


gcn_hidden_feats=[args['n_hidden'] for _ in range(args['n_layers'])],


n_tasks=dataset.n_tasks,


classifier_hidden_feats=args['n_hidden']).to(args['device'])


其余代码大部分是原始的 PyTorch,如果您熟悉此库,则使用起来就应该能够驾轻就熟。


要在 Amazon SageMaker 上运行此代码,我们要做的就是使用 SageMaker 模拟器,并传递 DGL 容器的全名并将训练脚本的名称作为超参数。


estimator = sagemaker.estimator.Estimator(container,


role,


train_instance_count=1,


train_instance_type='ml.p3.2xlarge',


hyperparameters={'entrypoint': 'main.py'},


sagemaker_session=sess) code_location = sess.upload_data(CODE_PATH, bucket=bucket, key_prefix=custom_code_upload_location) estimator.fit({'training-code': code_location})


<output removed> epoch 23/100, batch 48/49, loss 0.4684


epoch 23/100, batch 49/49, loss 0.5389


epoch 23/100, training roc-auc 0.9451


EarlyStopping counter: 10 out of 10


epoch 23/100, validation roc-auc 0.8375, best validation roc-auc 0.8495


Best validation score 0.8495


Test score 0.8273


2019-11-21 14:11:03 Uploading - Uploading generated training model


2019-11-21 14:11:03 Completed - Training job completed


Training seconds: 209


Billable seconds: 209


现在,我们可以获取 S3 中经过训练的模型,并将其用于预测大量化合物的毒性,而无需进行实际实验。真是好用!


现已推出!


您现在就可以在 Amazon SageMaker 上使用 DGL。


请试一试,并通过 DGL 论坛Amazon SageMakerAWS 平台或您常用的 AWS Support 联系方式向我们发送反馈。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/now-available-on-amazon-sagemaker-the-deep-graph-library/


2019-12-11 15:32550

评论

发布
暂无评论
发现更多内容

客户端版本热更新

admin

Electron 热替换 客户端 小版本升级 热更新

基于 Golang 构建高可扩展的云原生 PaaS(附 PPT 下载)

尔达Erda

开源 云原生 数字化转型 PaaS 数字化

Qunar容器平台网络之道:Calico

Qunar技术沙龙

容器 TCP/IP calico BGP #Kubernetes#

EMQ X Cloud 正式支持 Microsoft Azure 平台,助力企业出海业务

EMQ映云科技

azure 云端 云上数据 emq

聊一聊在阿里做了 8 年研发后,我对打造大型工程研发团队的再思考

尔达Erda

开源 云原生 研发管理 PaaS 研发

架构训练营模块三作业

晨晨

架构训练营

iOS底层面试题(中篇)

程序员 面试 iOS底层

Redis 关键点思维导图

康斯坦丁

最壕逆天改命:18名Java程序员凭阿里P8笔记,同时斩获一线大厂offer

Java架构师迁哥

Lazada首届技术开放日开麦在即 共享技术创新最佳实践

秒懂 Java 的三种代理模式

终于有人把大数据架构讲明白了

百度开发者中心

大数据 最佳实践 方法论 其他

银行4.0的AI世界——开启算法力的时代

索信达控股

2021,你还在写“赤裸裸”的API吗?

【云洲智造】直播间下午4:30准时开播!

浪潮云

工业互联网

文档内容结构化在百度文库的技术探索

百度Geek说

百度 大前端

保洁阿姨分享:腾讯架构师JDK源码笔记,13万字,带你飙向实战

Abp太重了?轻量化Abp框架

Patronum

学习 程序员 架构 框架 Abp

2021秋招我这样准备,提前批就已经拿到了9个大厂offer

北游学Java

Java 面试 秋招

电脑里的视频被误删了可以用EasyRecovery恢复吗?

淋雨

EasyRecovery 文件恢复 硬盘数据恢复

Unity ML-agents 参数设置解明

行者AI

看完这篇文章,你也可以手写MyBatis部分源码(JDBC)

东京奥运会与网络安全背后的速度博弈!

郑州埃文科技

保安小王分享:四面字节跳动,终拿Offer,只有努力,方能成功

Linux-通过 liveCD 进入救模式-重装 grub 修复损坏的系统

学神来啦

Linux 运维 linux运维 linux学习

淘宝商城的系统架构,是如何一步步突破“亿”级并发的?

Java架构师迁哥

还在用Jenkins?试试Gitlab的CI/CD功能吧,贼带劲!

模块三作业

NewBranSTONE

架构实战营

Java虚拟机之CMS垃圾收集器

不收藏你就后悔吧!费了三天才从GitHub上扒下的阿里Java优化笔记

一夜爆火!完美贴合开发实际!阿里SpringBoot宝典助你面试超神

Java 编程 程序员 架构师 计算机

Amazon SageMaker 现已推出:Deep Graph Library_行业深度_AWS_InfoQ精选文章