写点什么

使用 AOP 实现应用程序失败转移

2007 年 11 月 16 日

近日,面向方面编程思想(AOP)是公开论战的中心。Gavin King 称之为完全言过其实、失败的技术,Cedric Beust 也对其成为编程主流思想表示极大的怀疑,但他仍然标榜 AOP 是非常好的思想,只是仅有一小部分开发专家才能真正掌握。这篇文章的要旨不在于试图使读者成为面向方向编程思想的盲目追捧者,而在于描述一个大金融机构在最后一刻修改了一些横切关注点(cross cutting concern)需求的情况下,这种技术是怎样给现实中的JavaEE 项目带来诸多好处的。下文描述的场景和最终实现的解决方案很好地展现了AOP 如何弥补OOP 在商务应用模块化方面的不足。

问题

我们一直在为一个大型金融机构开发证券交易后台解决方案,所采用的是JavaEE 技术,以Oracle 10g RAC 做为数据库集群(database cluster),并以Websphere MQ 为消息传送中间件。这个项目目前已经进入用户确认测试阶段(UAT phase),也正是在这个阶段中,管理层决定让我们在原有的集群构架上实现透明的应用程序失败转移(failover)服务

Oracle 10g RAC 支持快速连接失败转移(Fast Connection Failover),这给 JDBC 应用利用这些连接失败转移设施提供了一个好的途径。但真正的挑战在于如何在应用层处理失败转移并通过一个重试 - 恢复(retry-and-recover)机制对用户实现透明化。

一旦某个 Oracle 节点发生失败转移,下列事件会依次发生:

  • 该节点上的数据库实例失败,该节点的连接缓存中遗留有过时的被破坏的连接。
  • 数据库中的 RAC 机制生成一个 RAC 事件并发送给含有 JDBC 的 Java 虚拟机(JVM)。
  • JVM 的守护线程(daemon thread)找到所有受 RAC 事件影响的连接,通过抛出 SQL 异常通知它们与该节点的连接中断,并且回滚所有尚未提交的事务(open transactions)。当 RAC 服务失败传送到 JDBC 应用程序的时候,数据库已经回滚了本地事务。

如果快速连接失败转移(FCF)被激活的话,那么当一个 RAC 节点失败的时候,连接缓存会自动作废,所有未被使用的连接和另外的节点建立新的连接。然而,对于已经被应用程序使用了的连接则不尽其然。在这种情况下,如果应用程序试图使用在节点失败转移前已经建立的连接,那么它会抛出 SQLException 异常(ORA-17008,Closed Connection)。应用程序不得不手动重试该连接,快速连接失败转移可以确保下一次尝试连接的成功。

暴力方案

上述问题的解决方案需要通过合适的重试 - 恢复机制来解决应用程序手动重试的问题。我们意识到在应用层我们需要特殊处理 ORA-17008,结合特定处理器以进行自动重试。但是问题在于代码库,这个应用程序的代码已经发展了 2 年多,其中包括 2 百多万行 Java 和 JSP 代码, 涉及到 6000 多个类和 500 多个数据表单,还有数不清的类似于如下的代码片:

long id = ...;<br></br> try {<br></br> Instrument instr = new Instrument(id, conn); } catch(SQLException ex) {<br></br> throw new KeyedException("cam.error.failed.retrieve.instrument",<br></br> ex);<br></br> }<br></br> ...对所有类似于上述例子的代码片段来说,SQLException 是针对所有数据库相关失败的普通“检查的异常”(checked exception),必须被捕获且遍布代码库各处(上帝,多么痛苦的“检查的异常” :-(…真应该像 Spring 那样把它封装在“非检查异常”(unchecked exception)中)。暴力方法需要在所有捕获 SQLException 异常的地方加入特定的处理器。但这个方案不得不被摒弃,因为我们很清楚案例已经进入到用户验证测试阶段,暴力会对代码库造成巨大恶劣的影响,而客户也截然不会乐意看到这些。

引入“方面”思想

经过对代码库进行慎重的分析之后,我们发现受影响的主要领域是需要实现重试 - 恢复机制的大量服务控件和控制平台。究于历史原因,我们没有使用 EJB,取而代之的是所有服务控件和控制平台都由“启动基础类”(launcher base classes)来启动。但需要加入的所有功能依旧涉及到大部分代码库,这恰恰是一个横切关注点。

这个时候,我们想到了结合“方面”的思想来考虑这个问题,最后提出和实现的方案是这样的:

  1. 定义一个“切点”(pointcut)来处理 SQLException 异常。
  2. 定义一个“通知”(advice),将在截获异常的切点处此执行的并抛出已定义类型异常(typed exception)
  3. 这个错误只会在两个基础类中处理,一个针对服务控件,另一个针对控制后台。这两个类在该错误的处理器中实现重试 - 恢复的功能。

下面的 aspect 实现了此机制的基本框架:

public aspect AspectFastConnFailOver<br></br> {<br></br> pointcut sqlHandler(SQLException exception):<br></br> handler(SQLException+) && args(exception);<p> // advice to be executed as the handler of SQLException </p><br></br> // its derived exception<br></br> before(SQLException exception): sqlHandler(exception){<p> ...</p><p> // handle only if non-UI</p><br></br> if (!Application.getInstance()<br></br> .getContext()<br></br> .getCallerIdentity()<br></br> .isInteractiveUser()) {<br></br> if(exception.getErrorCode() == Globals.FCF_SQLEX_ERRORCODE)<br></br> {<br></br> throw new DatabaseNotAvailableError();<br></br> } } }<br></br> ... }## 实现 MQ 失败转移

针对数据库服务器的透明应用程序失败转移实现以后,我们立刻决定对 Websphere MQ 服务采用相似的机制。该案例中的 Websphere MQ 建于使用了 Veritas 的 Storage Foundation 4.0/HA 以及同样来自 Veritas 的 MQ 代理服务器的集群配置(cluster configured)之上。

一旦失败转移采用 Oracle 10g RAC, 无论失败转移何时发生,都会引发适当的事件,然后向应用程序的 JDBC 层发送特定的错误代码。基于该错误代码,JDBC 将连接池 (pool) 中未被使用的连接全部作废,并且回滚和当前连接相关的事务。在应用层,我们需要捕捉该错误代码,并写重新尝试得到一个新连接来处理当前情况。如果在失败转移发生之后再发送建立连接的请求,新连接应该会成功地被建立起来。

由于 Veritas cluster 本质上并不处理失败转移,所以没有任何事件返回给应用层,这导致 MQ 失败转移的情况要比前者更复杂。应用程序需要侦测到失败转移,然后将连接池中的连接和会话(session)全部作废,并且回滚未提交事务。和 SQLException 在消息处理方面的能力一样,按照 JMS 规范说明中所提到的,所有类似于 Connection、Session、Receiver、Sender 和 Browser 接口的每个方法潜质上都能够抛出 JMSException 异常。因此,重试 - 恢复机制需要通过适当的切点在集中的处理器上实现。

下面这段类似的 aspect 代码段实现拦截的功能:

public aspect AspectFailOver<br></br> {<br></br> pointcut jmsHandler(JMSException exception): <br></br> handler(JMSException+) && args(exception)<br></br> && !within(...)<br></br> && !withincode(...));<p> // advice to be executed as the handler of JMSException</p><br></br> // its derived exception<p> before(JMSException exception): jmsHandler(exception){</p><br></br> ...<br></br> if (!Application.getInstance()<br></br> .getContext()<br></br> .getCallerIdentity()<br></br> .isInteractiveUser()) {<br></br> if(isMQFailoverException(exception)) {<br></br> throw new MQNotAvailableError();<br></br> }<br></br> }<br></br> } ...<br></br> }<br></br> }和 oracle 失败转移相似,MQNotAvailableError 错误在实现启动服务控件和控制后台的基础类中被捕获,以此最终实现重试 - 恢复的循环。

最小的影响,最好的效果

最后效果非常好!多亏 AOP 的力量,我们最终达到了将目前代码库所受影响最小化的目标。我们使用了 AspectJ 并在编译时编织,尽管编译和创建的时间延长了,但客户对因为引进 AOP 技术而成功地避免了对代码库产生巨大影响这个事实感到非常开心。

关于作者

Debasish Ghosh, Anshin Software 的 CTO,拥有在跨国 IT 企业 17 年之多的工作经验,擅长为各种客户(无论是小公司还是财富 500 强企业)提供领先的企业领域解决方案。他是 Anshin 软件的技术传道士,并对自己将软件设计和编程最佳实践制度化而引以为傲。他热爱 Java、Ruby 和 Scala 编程,也曾经沮丧地试图从尚不成体系的 C++ 世界中退隐。作为 Anshin 软件的核心管理团队的一员, Debasish 曾为公司从 4 人小组发展成今天的 150 人的规模作出不可磨灭的贡献。最近一段日子以来,他在个人 blog( http://debasishg.blogspot.com )上大量地发布文章。

查看英文原文: Application Failover using AOP

2007 年 11 月 16 日 00:001837
用户头像

发布了 71 篇内容, 共 16.7 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

鸟枪换炮,利用python3对球员做大数据降维(因子分析得分),为C罗找到合格僚机

刘悦的技术博客

Python 数据分析 特征选择 降维

母鸡下蛋实例:多线程通信生产者和消费者wait/notify和condition/await/signal条件队列

叫练

多线程与高并发 Wait lock 线程互斥 await

CKLC挖矿矿机系统开发案例介绍

系统开发咨询1357O98O718

CKLC挖矿矿机系统软件开发 CKLC挖矿矿机系统开发 CKLC挖矿矿机APP系统开发

智慧警务大数据可视化分析平台建设解决方案

WX13823153201

散布消极言论被开除的总监 | 法庭上的CTO(25)

赵新龙

CTO 法庭上的CTO

总结2020:5个月出版两本书,日更公众号是一种怎样的体验?

冰河

程序员 程序人生 年终总结

盘点2020 | YourBatman 2020年感悟关键词:科比、裁员、管理层、活着

YourBatman

裁员 盘点2020 科比 管理层 活着

IPFS挖矿矿机系统开发方案丨IPFS挖矿矿机源码案例

系统开发咨询1357O98O718

IPFS云算力挖矿系统开发 IPFS算力挖矿系统开发搭建

MySQL为Null会导致5个问题,个个致命!

王磊

MySQL MySQL使用

阿里面试:Mybatis中方法和SQL是怎么关联起来的呢?

田维常

mybatis

Java多线程编程核心技术

田维常

多线程

测开之函数进阶· 第6篇《闭包》

清菡

测试开发

侵犯著作权、判刑两年半的 CTO |法庭上的CTO(22)

赵新龙

CTO 法庭上的CTO

图解HTTP权威指南(三)| Web服务器对HTTP请求的处理和响应

李先生

DevOps 运维 HTTP SRE

年末了,放个大招,力软.net/java新产品附赠服务器,不容错过

力软.net/java开发平台

Java .net 服务器

IPFS云算力挖矿系统开发详解案例及源码

系统开发咨询1357O98O718

云算力挖矿系统开发详解 云算力APP系统软件开发 云算力模式系统开发源码 云算力软件系统开发定制

智慧社区综合应用平台搭建,社区管理解决方案

t13823115967

智慧社区管理平台开发 智慧平安社区平台建设

ArrayList源代码分析

肥鱼先生

架构师训练营第一周作业

Mark

SpringCloudGateway(一) 概览

Java SpringcloudGateway

Spring cloud Gateway(二) 一个Http请求的流程解析

Java 网关

开设赌场的CTO | 法庭上的CTO(23)

赵新龙

CTO 法庭上的CTO

为了搞清楚类加载,竟然手撸JVM!

小傅哥

JVM 小傅哥 类加载 生命周期 加载机制

被砍伤的技术VP | 法庭上的CTO(24)

赵新龙

CTO 法庭上的CTO

NoahTenet诺亚信条软件系统APP开发

开發I852946OIIO

系统开发

公安警务报警系统,二维码一键定位报警

t13823115967

二维码定位报警系统开发 微警务 二维码定位

5G与4G的差别及应用

anyRTC开发者

人工智能 android AI 5G WebRTC

IPFS挖矿系统开发详情案例

系统开发咨询1357O98O718

IPFS云算力挖矿系统开发 IPFS算力挖矿软件系统开发

AAAI 2021论文:利用深度元学习对城市销量进行预测(附论文下载)

京东科技开发者

数据库 大数据 时序预测

分享一个普通程序员的“沪漂”六年的历程以及感想

程序员老猫

回忆录 经历 年终总结 沪漂 上海买房

10次面试,2份offer —— 大龄程序员 2020 求职记录

escray

面试经历 架构师训练营第 1 期 101次面试

演讲经验交流会|ArchSummit 上海站

演讲经验交流会|ArchSummit 上海站

使用AOP实现应用程序失败转移-InfoQ