写点什么

Amazon SageMaker 现已推出:Deep Graph Library

  • 2019-12-11
  • 本文字数:2348 字

    阅读完需:约 8 分钟

Amazon SageMaker 现已推出:Deep Graph Library

今天,我们很高兴地宣布,为简化图神经网络的实现而构建的开源库 Deep Graph Library 现已在 Amazon SageMaker 上推出。


近年来,由于具有从复杂数据(例如自由文本、图像或视频)中提取复杂模式的强大能力,深度学习席卷了整个世界。但是,许多数据集不属于这些类别,使用图形更容易表达。 我们的直觉告诉我们,像卷积神经网络或递归神经网络这样的传统神经网络架构不适用于此类数据集,因此需要一种新的方法。


图神经网络初级读本


图神经网络 (GNN) 是当今机器学习领域最蓬勃发展的方向之一,这些参考文献将带您入门。


GNN 用于在数据集上训练预测模型,例如:


  • 社交网络数据集,其中的图形显示熟人之间的联系;

  • 推荐系统数据集,其中的图形显示顾客与物品之间的互动;

  • 化学分析数据集,其中化合物被建模为由原子和化学键组成的图形;

  • 网络安全数据集,其中的图形描述了源 IP 地址和目标 IP 地址之间的连接;

  • 等等!


在大多数情况下,这些数据集非常庞大,并且只有部分标记。以一个欺诈检测场景为例,在该场景中,我们将尝试通过分析某人与已知欺诈者的联系,来预测其为欺诈行为者的可能性。这个问题可以定义为半监督学习任务,其中只有一小部分图节点将被标记(“欺诈者”或“合法者”)。与尝试构建一个大型的手工标记数据集,并对其进行“线性化”以应用传统的机器学习算法相比,这应该是一个更好的解决方案。


解决这些问题需要特定领域的知识(零售、金融、化学等)、计算机科学知识(Python、深度学习、开源工具)和基础设施知识(培训、部署和扩展模型)。很少人能够掌握所有这些技能,这就是我们需要诸如 Deep Graph Library Amazon SageMaker 之类的工具的原因。


Deep Graph Library 简介


Deep Graph Library (DGL) 于 2018 年 12 月首次在 Github 上发布,是一个 Python 开源库,可帮助研究人员和科学家利用其数据集快速构建、训练和评估 GNN。



DGL 建立在流行的深度学习框架之上,例如 PyTorch Apache MXNet。如果您熟悉其中之一,就会发现使用起来得心应手。无论您使用哪种框架,都可以通过这些对初学者友好的示例轻松入门。我还发现 GTC 2019 研讨会的幻灯片和代码非常有用。


一旦完成了玩具示例,就可以开始探索 DGL 中已实现的各种前沿模型了。例如,您可以通过运行以下命令,使用图卷积网路 (GCN) 和 CORA 数据集来训练文档分类模型:


$ python3 train.py --dataset cora --gpu 0 --self-loop


所有模型的代码均可供查看和调整。这些实现已经过 AWS 团队仔细验证,他们验证了性能声明并确保可以重现结果。


DGL 还包含图形数据集的集合,您可以轻松下载并用于试验。


当然,您可以在本地安装和运行 DGL,但是为了为您提供便利,我们将其添加到了 PyTorch 和 Apache MXNet 的深度学习容器中。这样就可以轻松地在 Amazon SageMaker 上使用 DGL,以在任意规模上训练和部署模型,而不必管理服务器。我将向您展示如何操作。


在 Amazon SageMaker 上使用 DGL


我们在 Github 存储库中为 SageMaker 示例添加了完整的示例:在其中一个示例中,我们使用 Tox21 数据集训练了一个用于分子毒性预测的简单 GNN。


我们尝试解决的问题是,计算出新化合物对 12 种不同靶标(生物细胞内的受体等)的潜在毒性。可以想象,这种分析在设计新药时至关重要,而且无需进行体外实验就能快速预测结果,这有助于研究人员将精力集中在最有希望的候选药物上。


数据集包含 8,000 多种化合物:每种化合物均建模为图形(原子是顶点,原子键是边),并标记 12 次(每个目标一个标记)。我们将使用 GNN 建立一个多标签的二元分类模型,使我们能够预测所考察分子的潜在毒性。


在训练脚本中,我们可以轻松地从 DGL 集合中下载所需数据集。


from dgl.data.chem import Tox21


dataset = Tox21()


Similarly, we can easily build a GNN classifier using the DGL model zoo.


from dgl import model_zoo


model = model_zoo.chem.GCNClassifier(


in_feats=args['n_input'],


gcn_hidden_feats=[args['n_hidden'] for _ in range(args['n_layers'])],


n_tasks=dataset.n_tasks,


classifier_hidden_feats=args['n_hidden']).to(args['device'])


其余代码大部分是原始的 PyTorch,如果您熟悉此库,则使用起来就应该能够驾轻就熟。


要在 Amazon SageMaker 上运行此代码,我们要做的就是使用 SageMaker 模拟器,并传递 DGL 容器的全名并将训练脚本的名称作为超参数。


estimator = sagemaker.estimator.Estimator(container,


role,


train_instance_count=1,


train_instance_type='ml.p3.2xlarge',


hyperparameters={'entrypoint': 'main.py'},


sagemaker_session=sess) code_location = sess.upload_data(CODE_PATH, bucket=bucket, key_prefix=custom_code_upload_location) estimator.fit({'training-code': code_location})


<output removed> epoch 23/100, batch 48/49, loss 0.4684


epoch 23/100, batch 49/49, loss 0.5389


epoch 23/100, training roc-auc 0.9451


EarlyStopping counter: 10 out of 10


epoch 23/100, validation roc-auc 0.8375, best validation roc-auc 0.8495


Best validation score 0.8495


Test score 0.8273


2019-11-21 14:11:03 Uploading - Uploading generated training model


2019-11-21 14:11:03 Completed - Training job completed


Training seconds: 209


Billable seconds: 209


现在,我们可以获取 S3 中经过训练的模型,并将其用于预测大量化合物的毒性,而无需进行实际实验。真是好用!


现已推出!


您现在就可以在 Amazon SageMaker 上使用 DGL。


请试一试,并通过 DGL 论坛Amazon SageMakerAWS 平台或您常用的 AWS Support 联系方式向我们发送反馈。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/now-available-on-amazon-sagemaker-the-deep-graph-library/


2019-12-11 15:32734

评论

发布
暂无评论
发现更多内容

数据探索神器:火山引擎DataLeap Notebook 揭秘

字节跳动数据平台

数据库 数据中台 数据治理 数据安全 企业号9月PK榜

CodeArts Check代码检查服务用户声音反馈集锦(5)

华为云PaaS服务小智

云计算 软件开发 华为云 代码检查

eBPF 仅仅是实现可观测性的一种手段

JainChen

可观测性 ebpf Kubernetes, 云原生, eBPF #监控

满足更高算力需求,英特尔率先推出用于下一代先进封装的玻璃基板

E科讯

22H2 中国边缘公有云服务市场 Top2,百度智能云构建让智算无处不在的分布式云

Baidu AICLOUD

边缘计算 分布式云 大模型

利用ChatGPT实现快速网站模板构建

百度开发者中心

#人工智能 ChatGPT 千帆大模型平台

不可不知的七个Docker优秀实践

树上有只程序猿

Docker 容器 镜像

CodeArts Check代码检查服务用户声音反馈集锦(4)

华为云PaaS服务小智

云计算 华为云 代码检查

大模型时代,如何快速开发AI应用

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号9月PK榜

火山引擎A/B测试在消费行业的案例实践

字节跳动数据平台

数据库 ab测试 对比实验 数字化增长 企业号9月PK榜

腾讯云大数据平台 TBDS全面升级,加速构建安全可控的大数据生态

腾讯云大数据

TBDS

开启全球化新篇章,数字经济推动消费出海论坛在京召开

千流出海

出海 消费品企业 出海企业

超详细API插件使用教程,教你开发AI垃圾分类机器人

华为云开发者联盟

人工智能 API 华为云 华为云开发者联盟 企业号9月PK榜

华为重磅亮相 KubeCon China 2023,与你共启大模型时代的云原生!

华为云开源

云原生 华为云 KubeCON

解锁 zkSync Era:开创全新的 Layer 2 扩展时代

Footprint Analytics

以太坊 eth Layer 2

免费、安全、可靠!一站式构建平台 ABS 介绍及实例演示 | 龙蜥技术

OpenAnolis小助手

开源 操作系统 龙蜥社区 龙蜥大讲堂 abs

2023英特尔on技术创新大会:助力开发者,让AI无处不在

E科讯

引领智能对话革命的创新网络工程技术

百度开发者中心

智能对话 #人工智能 ChatGPT

保持预测一致性,推动企业实现未来价值

智达方通

数据孤岛 全面预算管理系统 预测分析

英特尔首席执行官帕特·基辛格会前畅谈2023年on技术创新大会

E科讯

五个很实用的IDEA使用技巧

越长大越悲伤

Java Python IDEA pycharm

AI在玩一种很新的艺术,700万网友在线围观,ControlNet又立功了

Openlab_cosmoplat

AI

至顶科技携手中青博联发布品牌升级千流出海计划 助力中国企业走向海外市场

千流出海

出海 出海服务商

【腾讯云 TDSQL-C Serverless 产品测评】"橡皮筋"一样的数据库

指剑

腾讯云 Serverless 数据库、

Amazon SageMaker 现已推出:Deep Graph Library_行业深度_AWS_InfoQ精选文章