写点什么

在 AWS 中国区域一键部署面向基因分析的 Cromwell-on-AWS-Batch 解决方案(一)

  • 2020-01-02
  • 本文字数:1537 字

    阅读完需:约 5 分钟

在 AWS 中国区域一键部署面向基因分析的 Cromwell-on-AWS-Batch 解决方案(一)

摘要:Cromwell-on-AWS-Batch 是 AWS 在生命科学领域联合 Broad 研究院推出的解决方案,已有很多 AWS 海外区域的客户在使用该解决方案进行基因分析。AWS Batch 服务于 2019 年 10 月在 AWS 中国区域上线之后,我们随即根据 AWS 中国区域的特点对该解决方案进行了适应修改和优化提升,本文通过一个测试示例和一个 GATK 实际例子来演示在中国区域一键部署的过程,为国内基因分析客户快速上手使用该解决方案加速分析效率提供参考。

1、基本介绍

Cromwell 是由 Broad 研究院面向科研领域开发的一套工作流管理框架,目前在基因分析领域更为常用。Cromwell 目前已支持对接 AWS Batch 作为其集群管理后端,云端基础资源的调度管理由 AWS Batch 完成。


Cromwell-on-AWS-Batch 的组成架构图如下图所示。由生信工程师编写 wdl 或 cwl 格式的基因分析工作流脚本,作为 Cromwell 的输入,通过 API 调用(或图形管理界面)的方式提交任务,分析过程中可通过 AWS Batch 服务的控制面板和 CloudWatch-Log 记录可以查看任务的执行状态,分析的结果保存在 Amazon S3 存储上。分析中支持调用 Spot 竞价实例来降低样本分析的成本。此外 Cromwell 还支持通过 Amazon Aurora 数据库服务来管理作业数据记录。


2、一键部署的过程及测试示例

部署过程通过 CloudFormation 模板导入,非常方便。进入 AWS 控制台,右上角选择宁夏区域,并通过左上角服务菜单进入 CloudFormation 服务界面,点击“创建堆栈”,在堆栈模板的 URL 信息栏中填入:https://awshcls.s3.cn-northwest-1.amazonaws.com.cn/cromwellcn/templates/cromwell-aio.template.yaml,如图所示。



进入下一步,为堆栈指定名称。在堆栈参数栏中,下拉选择 EC2 密钥对(如果下拉列表为空,可进入 EC2 服务界面左侧密钥对菜单中建好再返回此处),该密钥对是后续 SSH 登录的凭据;并输入 S3 存储桶的名称,该名称需符合 S3 桶名规范并保证唯一(亦可通过指定 Existing 选项为 true 来使用已有存储桶名)。在 AWS Batch 参数中,指定 Spot 竞价实例在所有 vCPU 的使用比例,并指定最小最大 vCPU 数量,后续会建 Default 和 High Priority 两个不同优先级的任务队列,故最小最大数量可分别指定。此处两个最小值均填 4。其他可保持默认值,进入下一步。



在权限参数中需要指定一个 IAM 权限角色用于授权 CloudFormation 来启动资源用,如果为空,参考右上角“了解更多”的步骤新建一个角色(简便起见可先建一个管理员权限的)再返回此处设置。



进入下一步,勾选两个确认框。



点击创建堆栈,即开始自动新建整个框架堆栈。等待十几分钟后堆栈建立完成,堆栈状态可看到均为 CREATE_COMPLETE 状态(该模板自动嵌套 7 个子模板)。



在 EC2 实例列表里也可以查看到对应的实例信息,选中 cromwell-server 实例点击上方“连接”查看 SSH 登录方式。



SSH 登录进 cromwell-server 实例后,输入以下命令即可提交一个简单的测试示例。


Bash


wget https://awshcls.s3.cn-northwest-1.amazonaws.com.cn/cromwellcn/scripts/simple-hello.wdl   curl -X POST "http://localhost:8000/api/workflows/v1" -H "accept: application/json" -F "workflowSource=@simple-hello.wdl"
复制代码


其中 simple-hello.wdl 的内容如下,是一个只执行一个 task 的测试脚本(wdl 的规范参考文末链接)。``


Bash


task echoHello{    command {        echo "Hello AWS!"    }    runtime {        docker: "amazonlinux:latest"    }}workflow printHelloAndGoodbye {    call echoHello}
复制代码


测试示例很快完成,在 CloudWatch Log 中有详细记录信息,如下图所示。



本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/one-click-deployment-of-cromwell-on-aws-batch-solution-for-genetic-analysis-in-aws-china/


2020-01-02 14:41825

评论

发布
暂无评论
发现更多内容

如何使用不同的纹理贴图制作逼真的 3D 图形?

3D建模设计

3D渲染 材质纹理贴图 3D材质编辑

可视化技术:数据可视化17个常用图表

2D3D前端可视化开发

大数据 数据分析 数据可视化 数据可视化工具 可视化大屏

什么是多边形网格以及如何编辑它?

3D建模设计

3D渲染 材质纹理贴图 3D材质编辑

“Ladies In Tech 闪闪发光的她”分论坛圆满举办

开放原子开源基金会

开源

PON网络应用场景

小齐写代码

AI时代数据存储管理新挑战分论坛圆满举办

开放原子开源基金会

开源

3D 纹理贴图基础知识

3D建模设计

3D渲染 材质纹理贴图 3D材质编辑

共话 AI for Science,2023和鲸社区年度科研闭门会圆满结束

ModelWhale

人工智能 数据科学 科研 AI4S

什么是3D模型LOD:细节级别

3D建模设计

3D渲染 材质纹理贴图 3D材质编辑

大模型热的冷思考

用友BIP

企业服务大模型

七分技术、三分管理,做好供应链管理的需求预测

用友BIP

供应链

星河创新,产业引领:大模型引领的企业智能化升级创新实践

飞桨PaddlePaddle

人工智能 深度学习 开发者 WAVE SUMMIT

六步走向无忧,华为云数据库高可用的秘密武器

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟

文心一言专业版年卡来啦!

飞桨PaddlePaddle

人工智能 文心一言

我们不可能永远都在救火 ——Scrum中技术债务“偿还”指南

敏捷开发

项目管理 Scrum 敏捷开发 自动化测试 技术债务

铜锁/Tongsuo项目管理委员会成立,重磅发布8.4.0版本

开放原子开源基金会

开源

openEuler Code Camp圆满举办

开放原子开源基金会

开源

All in One, 快速搭建端到端可观测体系

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 华为云可观测监控大屏

软件测试/测试开发丨Bug生命周期

测试人

软件测试 测试开发

微服务广播模式实践:维护内存数据的缓存一致性

华为云开发者联盟

微服务 云原生 后端 华为云 华为云开发者联盟

企业门户平台:八项必备功能助力业务升级

天津汇柏科技有限公司

网站 企业

从被动到主动,智能招聘为企业人效提升给出最优解

用友BIP

招聘

业务全面重塑,“人”要如何重塑?

用友BIP

人才管理

稳定的数据云平台如何炼成?奇点云解读“RAS”典型问题

奇点云

奇点云 数据云平台 DataSimba

优测云服务平台|总结Android开发常见风险及解决方案

优测云服务平台

风险 Android开发 Android解决方案

软件测试/测试开发丨测试用例的概念、组成、优先级、设计工具

测试人

软件测试 测试开发

软件测试/测试开发丨Bug概念,定义,判定标准,严重程度,优先级

测试人

软件测试 测试开发

为啥不建议用BeanUtils.copyProperties拷贝数据 | 京东云技术团队

京东科技开发者

spring BeanUtils copyProperties

开源工业物联网大数据分论坛圆满举办

开放原子开源基金会

开源

在 AWS 中国区域一键部署面向基因分析的 Cromwell-on-AWS-Batch 解决方案(一)_文化 & 方法_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章