在 AWS 中国区域一键部署面向基因分析的 Cromwell-on-AWS-Batch 解决方案(二)

阅读数:3 2020 年 1 月 2 日 14:41

在 AWS 中国区域一键部署面向基因分析的 Cromwell-on-AWS-Batch 解决方案(二)

3、运行一个GATK基因分析处理的实际例子

本例子是基于 hg38 公开数据进行 GATK 分析流程中 HaplotypeCaller 步骤处理。(提示:本实验会产生一定运行费用根据运行实例类型和 Spot 比例设置有所不同)

SSH 登录进 cromwell-server 实例后,输入以下命令获取工作流脚本 HaplotypeCaller.aws.wdl 和配置文件 HaplotypeCaller.aws.json。``

Bash

复制代码
wget https://awshcls.s3.cn-northwest-1.amazonaws.com.cn/cromwellcn/scripts/HaplotypeCaller.aws.wdl
wget https://awshcls.s3.cn-northwest-1.amazonaws.com.cn/cromwellcn/scripts/HaplotypeCaller.aws.json

其中配置文件 HaplotypeCaller.aws.json 的内容格式如下,其中的 s3:// 开头的地方是用到的 bam/fastq 等资源文件,您也可以指定到自己 S3 存储桶的文件链接。``

Bash

复制代码
{
"##_COMMENT1": "INPUT BAM",
"HaplotypeCallerGvcf_GATK4.input_bam": "s3://gatk-test-data/wgs_bam/NA12878_24RG_hg38/NA12878_24RG_small.hg38.bam",
"HaplotypeCallerGvcf_GATK4.input_bam_index": "s3://gatk-test-data/wgs_bam/NA12878_24RG_hg38/NA12878_24RG_small.hg38.bai",
"##_COMMENT2": "REFERENCE FILES",
"HaplotypeCallerGvcf_GATK4.ref_dict": "s3://broad-references/hg38/v0/Homo_sapiens_assembly38.dict",
"HaplotypeCallerGvcf_GATK4.ref_fasta": "s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta",
"HaplotypeCallerGvcf_GATK4.ref_fasta_index": "s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta.fai",
"##_COMMENT3": "INTERVALS",
"HaplotypeCallerGvcf_GATK4.scattered_calling_intervals_list": "s3://gatk-test-data/intervals/hg38_wgs_scattered_calling_intervals.txt",
"HaplotypeCallerGvcf_GATK4.HaplotypeCaller.interval_padding": 100,
"##_COMMENT4": "DOCKERS",
"HaplotypeCallerGvcf_GATK4.gatk_docker": "broadinstitute/gatk:4.0.0.0",
"##_COMMENT5": "PATHS",
"HaplotypeCallerGvcf_GATK4.gatk_path": "/gatk/gatk",
"##_COMMENT6": "JAVA OPTIONS",
"HaplotypeCallerGvcf_GATK4.HaplotypeCaller.java_opt": "-Xms8000m",
"HaplotypeCallerGvcf_GATK4.MergeGVCFs.java_opt": "-Xms8000m",
"##_COMMENT7": "MEMORY ALLOCATION",
"HaplotypeCallerGvcf_GATK4.HaplotypeCaller.mem_size": "10 GB",
"HaplotypeCallerGvcf_GATK4.MergeGVCFs.mem_size": "30 GB",
}

提交如下命令启动分析流程。``

Bash

复制代码
curl -X POST "http://localhost:8000/api/workflows/v1" \
-H "accept: application/json" \
-F "workflowSource=@HaplotypeCaller.aws.wdl" \
-F workflowInputs=@HaplotypeCaller.aws.json

分析完成后,可在 CloudWatch Log 中查看每个任务的日志,如下图所示。结果数据文件存放在 s3://yourbucket/cromwell-execution/HaplotypeCallerGvcf_GATK4/{UUID}/call-HaplotypeCaller/shard-xx/ 路径下。

在 AWS 中国区域一键部署面向基因分析的 Cromwell-on-AWS-Batch 解决方案(二)

实验完成后,在 CloudFormation 界面中选择模板删除即可释放堆栈相关资源避免产生不必要的费用,其中 S3 存储桶和 CloudWatch Log 记录可在对应服务内手动删除。

4、参考资源链接

Cromwell快速教程:

https://cromwell.readthedocs.io/en/stable/tutorials/FiveMinuteIntro/

Cromwell-on-AWS-Batch海外区域部署指南:

https://docs.opendata.aws/genomics-workflows/orchestration/cromwell/cromwell-overview/

AWS基因分析参考资料:

https://docs.opendata.aws/genomics-workflows/

AWS CloudFormation使用指南:

https://amazonaws-china.com/cn/cloudformation/getting-started/

wdl参考链接:

https://github.com/openwdl/wdl

Github参考链接:

https://github.com/iwillsky/cromwellcn/

AWS中国区域帐号申请:

https://www.amazonaws.cn/signup/?sc_channel=el&sc_campaign=request_for_pilot_account&sc_geo=chna&sc_country=cn&sc_outcome=ml&sc_publisher=internal&trkCampaign=request_for_pilot_account&trk=GSRC

作者介绍:

!
复制代码
AWS 解决方案架构师,目前负责医疗健康与生命科学行业云端应用的架构设计与技术咨询。加入 AWS 前从事了十余年信息系统研发,设计部署了多个 HPC、SOA 系统,多次获国家级科技进步奖项。
!
复制代码
AWS 解决方案架构师经理,也是国内最资深的 AWS 技术讲师。深度掌握 AWS 的核心服务,拥有利用 AWS 云平台为多个跨行业客户设计、开发、部署 AWS 云端应用的经验。在加入 AWS 之前就职 Oracle 多年,也是一名 Oracle 技术堆栈专家,上海 Oracle 用户组创始人,曾著有《临危不惧:Oracle 11g 数据库恢复技术》一书。

本文转载自 AWS 技术博客。

原文链接: https://amazonaws-china.com/cn/blogs/china/one-click-deployment-of-cromwell-on-aws-batch-solution-for-genetic-analysis-in-aws-china/

评论

发布