GMTC北京站9折购票倒计时,部分日程已上线,戳此查看 了解详情
写点什么

在 AWS 中国区域一键部署面向基因分析的 Cromwell-on-AWS-Batch 解决方案(二)

  • 2020 年 1 月 02 日
  • 本文字数:2033 字

    阅读完需:约 7 分钟

在 AWS 中国区域一键部署面向基因分析的 Cromwell-on-AWS-Batch 解决方案(二)

3、运行一个 GATK 基因分析处理的实际例子

本例子是基于 hg38 公开数据进行 GATK 分析流程中 HaplotypeCaller 步骤处理。(提示:本实验会产生一定运行费用根据运行实例类型和 Spot 比例设置有所不同)


SSH 登录进 cromwell-server 实例后,输入以下命令获取工作流脚本 HaplotypeCaller.aws.wdl 和配置文件 HaplotypeCaller.aws.json。``


Bash


wget https://awshcls.s3.cn-northwest-1.amazonaws.com.cn/cromwellcn/scripts/HaplotypeCaller.aws.wdl   wget https://awshcls.s3.cn-northwest-1.amazonaws.com.cn/cromwellcn/scripts/HaplotypeCaller.aws.json
复制代码


其中配置文件 HaplotypeCaller.aws.json 的内容格式如下,其中的 s3://开头的地方是用到的 bam/fastq 等资源文件,您也可以指定到自己 S3 存储桶的文件链接。``


Bash


{  "##_COMMENT1": "INPUT BAM",  "HaplotypeCallerGvcf_GATK4.input_bam": "s3://gatk-test-data/wgs_bam/NA12878_24RG_hg38/NA12878_24RG_small.hg38.bam",  "HaplotypeCallerGvcf_GATK4.input_bam_index": "s3://gatk-test-data/wgs_bam/NA12878_24RG_hg38/NA12878_24RG_small.hg38.bai",  "##_COMMENT2": "REFERENCE FILES",  "HaplotypeCallerGvcf_GATK4.ref_dict": "s3://broad-references/hg38/v0/Homo_sapiens_assembly38.dict",  "HaplotypeCallerGvcf_GATK4.ref_fasta": "s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta",  "HaplotypeCallerGvcf_GATK4.ref_fasta_index": "s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta.fai",  "##_COMMENT3": "INTERVALS",  "HaplotypeCallerGvcf_GATK4.scattered_calling_intervals_list": "s3://gatk-test-data/intervals/hg38_wgs_scattered_calling_intervals.txt",  "HaplotypeCallerGvcf_GATK4.HaplotypeCaller.interval_padding": 100,  "##_COMMENT4": "DOCKERS",  "HaplotypeCallerGvcf_GATK4.gatk_docker": "broadinstitute/gatk:4.0.0.0",  "##_COMMENT5": "PATHS",  "HaplotypeCallerGvcf_GATK4.gatk_path": "/gatk/gatk",  "##_COMMENT6": "JAVA OPTIONS",  "HaplotypeCallerGvcf_GATK4.HaplotypeCaller.java_opt": "-Xms8000m",  "HaplotypeCallerGvcf_GATK4.MergeGVCFs.java_opt": "-Xms8000m",  "##_COMMENT7": "MEMORY ALLOCATION",  "HaplotypeCallerGvcf_GATK4.HaplotypeCaller.mem_size": "10 GB",  "HaplotypeCallerGvcf_GATK4.MergeGVCFs.mem_size": "30 GB",}
复制代码


提交如下命令启动分析流程。``


Bash


curl -X POST "http://localhost:8000/api/workflows/v1" \    -H  "accept: application/json" \    -F "workflowSource=@HaplotypeCaller.aws.wdl" \-F workflowInputs=@HaplotypeCaller.aws.json
复制代码


分析完成后,可在 CloudWatch Log 中查看每个任务的日志,如下图所示。结果数据文件存放在 s3://yourbucket/cromwell-execution/HaplotypeCallerGvcf_GATK4/{UUID}/call-HaplotypeCaller/shard-xx/路径下。



实验完成后,在 CloudFormation 界面中选择模板删除即可释放堆栈相关资源避免产生不必要的费用,其中 S3 存储桶和 CloudWatch Log 记录可在对应服务内手动删除。


4、参考资源链接

Cromwell 快速教程:


https://cromwell.readthedocs.io/en/stable/tutorials/FiveMinuteIntro/


Cromwell-on-AWS-Batch 海外区域部署指南:


https://docs.opendata.aws/genomics-workflows/orchestration/cromwell/cromwell-overview/


AWS 基因分析参考资料:


https://docs.opendata.aws/genomics-workflows/


AWS CloudFormation 使用指南:


https://amazonaws-china.com/cn/cloudformation/getting-started/


wdl 参考链接:


https://github.com/openwdl/wdl


Github 参考链接:


https://github.com/iwillsky/cromwellcn/


AWS 中国区域帐号申请:


https://www.amazonaws.cn/signup/?sc_channel=el&sc_campaign=request_for_pilot_account&sc_geo=chna&sc_country=cn&sc_outcome=ml&sc_publisher=internal&trkCampaign=request_for_pilot_account&trk=GSRC


作者介绍:


!



### [](https://amazonaws-china.com/cn/blogs/china/tag/%E5%B4%94%E5%90%91%E5%BE%BD/)
AWS解决方案架构师,目前负责医疗健康与生命科学行业云端应用的架构设计与技术咨询。加入AWS前从事了十余年信息系统研发,设计部署了多个HPC、SOA系统,多次获国家级科技进步奖项。
复制代码


!



### [](https://amazonaws-china.com/cn/blogs/china/tag/%E5%8C%85%E5%85%89%E7%A3%8A/)
AWS解决方案架构师经理,也是国内最资深的AWS技术讲师。深度掌握AWS的核心服务,拥有利用AWS云平台为多个跨行业客户设计、开发、部署AWS云端应用的经验。在加入AWS之前就职Oracle多年,也是一名Oracle技术堆栈专家,上海Oracle用户组创始人,曾著有《临危不惧:Oracle 11g数据库恢复技术》一书。
复制代码


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/one-click-deployment-of-cromwell-on-aws-batch-solution-for-genetic-analysis-in-aws-china/


2020 年 1 月 02 日 14:41455

评论

发布
暂无评论
发现更多内容

15 本你必须阅读的 PyTorch 书籍,【2021Python最新学习路线

程序媛可鸥

Python 程序员 面试

18年程序员生涯,读了200多本编程书,挑出一些精华分享给大家

程序媛可鸥

Python 程序员 面试

Girlfriend含苞待笑——一次性处理上百份文档,BAT这种大厂履历意味着什么

程序媛可鸥

Python 程序员 面试

Python 蜻蜓fm有声书批量下载 支持账号登录 原创源码,斩获offer

程序媛可鸥

Python 程序员 面试

Python3通过函数名调用函数的几种场景实现,贼厉害

程序媛可鸥

Python 程序员 面试

Python数据分析 之 制作酷炫的可视化大屏,特简单,我把所有Python框架整理成了PDF

程序媛可鸥

Python 程序员 面试

Matlab初级学习者,15个经典面试问题及回答思路

程序媛可鸥

Python 程序员 面试

python DataFrame数据分组统计groupby()函数,值得推荐

程序媛可鸥

Python 程序员 面试

Python 中的文本分类,2021Python面试真题精选干货整理

程序媛可鸥

Python 程序员 面试

Linux grep命令详解,手把手教你写

程序媛可鸥

Python 程序员 面试

Python 中进程和线程的用法基本一样,跪了

程序媛可鸥

Python 程序员 面试

想了解 spring-cloud-kubernetes,那就先来实战一把官方demo

华为云开发者社区

spring Kubernetes Spring Cloud Spring Boot

架构实战营模块六作业

刘洋

#架构实战营 「架构实战营」

Python数据结构与算法(2,阿里一线架构师技术图谱

程序媛可鸥

程序员 面试

NFS服务器原理、搭建、配置,Python面试题选择题

程序媛可鸥

Python 程序员 面试

python中函数作用域,高级Python开发面试解答之线程篇

程序媛可鸥

Python 程序员 面试

Python文字转换语音,让你的文字会「说话,Python面试项目包装

程序媛可鸥

Python 程序员 面试

Python爬取51job招聘信息,全网独家首发

程序媛可鸥

Python 程序员 面试

OBV指标交易策略(累积能量潮与移动能量潮,成交量多空比率净额及相关应用原则)

程序媛可鸥

Python 程序员 面试

复盘归因,提高交付质量的秘诀

老张

软件测试 交付质量 复盘归因

Python实现Singleton模式的几种方式,正在准备面试

程序媛可鸥

Python 程序员 面试

Python数据类型——字典,一次哔哩哔哩面试经历

程序媛可鸥

Python 程序员 面试

Newton迭代法开方(Python),最详细的docker中安装并配置redis

程序媛可鸥

Python 程序员 面试

百度一线工程师浅谈日新月异的云原生

百度Geek说

云原生 后端

Python 下载的9种方法,如何才能通过一线互联网公司面试

程序媛可鸥

Python 程序员 面试

Python 中的八个“无代码”特性,这原因我服了

程序媛可鸥

Python 程序员 面试

Python 金融量化 随机指标交易策略,闭关60天学懂NDK+Flutter

程序媛可鸥

Python 程序员 面试

Python两个内置函数locals 和globals,Python项目开发如何设计整体架构

程序媛可鸥

Python 程序员 面试

python中strip(),lstrip(),rstrip()函数的使用讲解,Python开发知识点

程序媛可鸥

Python 程序员 面试

详解《send》源码中NodeJs静态文件托管服务实现原理

CRMEB

Python爬取淘宝商品数据,价值千元的爬虫外包项目,最新美团点评Python团队面试题

程序媛可鸥

Python 程序员 面试

在 AWS 中国区域一键部署面向基因分析的 Cromwell-on-AWS-Batch 解决方案(二)_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章