使用 EC2 Spot 实例和 TIBCO GridServer 在 AWS 上创建由 130 万个 vCPU 组成的网格

2019 年 10 月 24 日

使用 EC2 Spot 实例和 TIBCO GridServer 在 AWS 上创建由 130 万个 vCPU 组成的网格

我的许多同事都非常幸运,能够有不错的时间坐下来听听客户的意见,尽最大努力了解我们怎样才能更好地满足客户的业务需求和技术需求。这一信息经过谨慎处理后,用于决定新服务和新功能计划。

AWS 的金融业(常常简称为 FSI)客户都在关注将于 2019 年至 2021 年期间生效的《交易账户根本审查》(Fundamental Review of Trading Book,FRTB) 规定。这些规定要求(包括但不限于)采用新的方法来计算“在险值”,金融机构必须在纽约交易时段结束后,东京交易时段开始前的四个小时内完成计算。目前,我们的客户报告这一关键任务型计算消耗的 vCPU 数量以 200,000 为量级,而为了满足 FRTB 规定的要求,消耗将增加到 40 万到 80 万个 vCPU。虽然对于运行这一扩展计算需要的算力量级和频率仍有一些争议,但总体方向十分明确。

建设大网格
为了确保我们最好准备,帮助 FSI 客户满足新规定的要求,我们与 TIBCO 合作在 AWS 云建立了网格并进行了概念验证。 计算的周期性,加上在四小时内完成计算所需的处理能力和存储量,导致特别需要建立一个按需提供海量高成本效益计算能力的环境。

我们的客户已经在本地使用 TIBCO GridServer ,并且希望在云上使用它。该产品为运行企业级的网格而设计。它将以虚拟化的方式运行应用程序,接受资源请求,然后按需动态预置资源。该产品的云版支持 Amazon Linux 和兼容 PostgreSQL 的 Amazon Aurora

通过与 TIBCO 合作,我们确定要创建的网格规模需要远远超过 80 万个 vCPU 这一当前消耗上限,并增加 50% 的安全系数,总计达到 130 万个 vCPU(是最大本地网格规模的 5 倍)。根据这一目标,账户限制也上调为如下参数:

  • Spot 实例限制 – 120,000
  • EBS 卷限制 – 120,000
  • EBS 容量限制 – 2PB

如果您计划创建这种规模的网格,您还应尽早让当地热情的 AWS 解决方案架构师参与。他们将会审核您的计划,为您提供架构指南,帮助您计划运行。

运行网格
按下 Go(开始)按钮并启动网格,观察它竞价并取得 Spot 实例,每个实例都将在两分钟内完成启动和初始化并加入网格。测试工作负载使用来自 OpenGamma Strata 开放源分析和市场风险库,并在他们的协助下完成。

网格按照计划增加到 61,299 个 Spot 实例(从覆盖 3 代 EC2 硬件的 34 个实例类型提取 130 万个 vCPU),在运行期间仅 1,937 个实例被自动回收和更换,运行成本每小时 30,000 USD,每个 vCPU 平均每小时 0.078 USD。如果相同的实例采用按需实例的形式,则运行网格的成本将约为每小时 93,000 USD。

尽管网格的规模如此大,EC2 实例的价格在竞价期间并未移动。这归功于 AWS 云的总体规模以及我们在去年底启动的平稳价格调整模型

为便于您理解运算能力的大小,我们估计该网格将以较大的优势超过 2007 年 11 月全球超级计算机 500 强排名第一的计算机,以及 2008 年排名第二的计算机。即使今天,它也将取得第 360 名的成绩。

希望大家喜欢 AWS 的这一成功故事,让您对云计算可以实现的量级有一个概念!

本文转载自 AWS 技术博客。

原文链接:
https://amazonaws-china.com/cn/blogs/china/creating-a-1-3-million-vcpu-grid-on-aws-using-ec2-spot-instances-and-tibco-gridserver/

2019 年 10 月 24 日 08:00 97

评论

发布
暂无评论
发现更多内容

如何更自信的写作

七镜花园-董一凡

写作

CentOS 6 升级 glibc

wong

centos glibc

给苹果提醒APP配个助手

BabyKing

提醒助手 TODO 奇妙清单 Reminders Helper

从零开始制作一台计算机-概述

小兵

计算机基础

ZooKeeper,到底如何选主?

奈学教育

谈谈控制感(7):底线思维与控制感

史方远

职场 心理 成长

Web3极客日报#127

谢锐 | Frozen

区块链 开源 技术社区 Rebase Web3 Daily

识别代码中的坏味道(三)

Page

敏捷开发 面向对象 重构 代码质量 代码坏味道

半小时手工解决的活,让我意外学会了 python 的 pdfkit 库

Sicolas Flamel

Python python教程

npm下载electron缓慢的问题

玏佾

npm Electron

设计模式前传——为什么要学设计模式

海星

Java 面试 设计模式

程序员的晚餐 | 5 月 18 日 瓠子,年少时的味道

清远

美食

回“疫”录(20):世界从来不会欺负听话的人

小天同学

疫情 回忆录 现实纪录 纪实

Live2D for Unity入门篇 4.x

波波

编程 游戏开发 Live2D Unity

Redis缓存三大问题

Bruce Duan

redis 缓存穿透 缓存击穿 缓存雪崩

游戏夜读 | Two Sum问题的八个解

game1night

Kafka系列第7篇:你必须要知道集群内部工作原理的一些事!

z小赵

大数据 kafka 实时计算

JAVA主流锁

颇风

多线程 Java、

Spring Security 中的授权操作原来这么简单

江南一点雨

Java spring Spring Boot spring security

中小企业如何做运维自动化?

Spug运维

运维 spug 运维自动化 jenkins ansible

Vue+SpringBoot+SpreadJS 实现的在线文档

Geek_Willie

Spring Boot Vue SpreadJS

产品周刊 | 第 15 期(20200517)

Herbert

产品 设计 产品经理 产品设计

NIO看破也说破(四)—— Java的NIO

小眼睛聊技术

Java 开源 学习方法 架构 后端

Web3极客日报 #128

谢锐 | Frozen

区块链 开源 技术社区 Rebase Web3 Daily

Deno 入门手册:附大量 TypeScript 代码实例

寇云

node.js typescript

东哥和刘亦菲的故事

张利东

R

单核小鸡上的Minikube实践(一)

💯

Docker Linux DevOps k8s minikube

换脸新潮流:BIGO风靡全球的人脸风格迁移技术

DT极客

Kotlin 协程实践(2)之 异步和Callback地狱

陈吉米

Java kotlin 协程

DDD 实践手册(番外篇: 事件风暴-概念)

Joshua

领域驱动设计 DDD 事件风暴 事件驱动 Event Storming

MySQL事务解析

一个有志气的DB

MySQL 事务隔离级别 mysql事务

众安黑客马拉松大赛总决赛-InfoQ小编探班

众安黑客马拉松大赛总决赛-InfoQ小编探班

使用 EC2 Spot 实例和 TIBCO GridServer 在 AWS 上创建由 130 万个 vCPU 组成的网格-InfoQ