血淋淋的 BUG:波音在软件开发上错在哪里?

阅读数:31891 2019 年 3 月 15 日

到了 2019 年,新飞机还会从天上掉毁,是一件让人不可想象的事情。然而这样的事情,最近接连发生了两起。

去年 10 月,一架波音 737 Max 8 喷气式客机撞向印度尼西亚的爪哇海,造成 189 名乘客和机组人员死亡。调查人员称该飞机的飞行控制软件出现“故障”。

今年 3 月 10 日,也就是上周,埃塞俄比亚航空公司一架波音 737 MAX 8 客机在飞往肯尼亚首都内罗毕途中坠毁。飞机上载有 149 名乘客和 8 名机组人员。两次飞机出事的事故症状非常类似,所以有理由怀疑埃航这架飞机发生了同样的“软件故障”。

在经历了两次空难之后,波音公司承诺,最迟在下个月,针对全球所有波音 737 Max 型飞机进行软件更新。

迟迟修正不了的 BUG

在狮航事故记录和波音发布的分析里,失事前几分钟,由于高攻角传感器(AOA)错误数据传给了飞控系统,导致飞机在正常情况下开始不断下压机头。飞行员在 11 分钟内连续手动拉升 20 余次终告失败,坠海罹难。

这个自动控制下压机头的系统,名叫 MCAS,意为自动纠正失速系统,这是波音 737 MAX 的一种操纵辅助系统。它有几个特点:

  1. 发现失速后,程序只相信主传感器,不与备份传感器核实。(同样的情况空客的飞机则会交给飞行员处理。)
  2. 一旦相信,不通知飞行员,直接操纵机翼。
  3. 飞行员手动操作后,仍旧会每五秒自动执行,让飞行员不得不与飞机较劲。
  4. 程序开关非常隐蔽。

狮航事故后,波音表示正在进行软件修复,以降低风险。

Boeing is working on a software fix, according to industry and government officials, that would likely mitigate risks. On Saturday, the company went further than before in spelling out dangers pilots can face if they misinterpret or respond too slowly to counter automated commands.

从技术角度来说,这是个很容易修正的低级错误。全球几百架运行着的波音 737 MAX 8/9 等着打这个补丁。然而,这个修复被拖延了好几个月,直到埃航事故发生。

延误的原因,其中之一是联邦官员和波音公司安全专家对于需要进行多大改动,有意见分歧。波音公司认为更新这个 BUG 很简单,减少下压幅度就行。而联邦官员认为 189 条人命是大事情,必须大改,确保单个传感器错误信号不会触发 MCAS 系统。加上波音公司和美国政府的低效,这个性命攸关的 BUG,硬生生被拖到四个月后。

但显然因为这次全球停飞事件,波音才很快决定“Make Key Change in 737“,并宣布将在 4 月份交付。

image

波音 737 MAX 的交付

对于安全要求严格的航空软件,波音要求每个需求都能追溯到相应的代码行。反之亦然。也就是说每行代码发生变化,必须能追溯到软件的设计文档。但是狮航事故后,媒体披露航空公司的管理层和飞行员并不知道飞机上还有这么一套辅助系统。APA 航空发言人 Dennis Tajer 曾表示,MCAS 系统的细节“对我们而言是新信息”,“我们的手册中没有提到它”。而且该航空还没有相应模拟器,他说他从旧的 737 NG 驾驶舱到新的 737 MAX,只在 iPad 上进行一小时训练。

image

软件外包和成本压缩

波音公司在 2010 年曾发布了1000 份裁员通知,而这些被裁减的人大部分在 IT 部门。该公司当时拥有 158,500 名员工,其中包括 18,000 名工程和技术人员,但他们计划是削减 10,000 个工作岗位。一位前波音软件工程师在 2015 年表示,企业将裁掉 90% 经过了熟练培训的员工,用“外包”来代替他们,从而缩减开支。据《经济时代》报道,2015 这一年,波音公司给印度的外包业务翻了一番,达到了 5 亿美元。

image

软件外包是一个需要发包方和承包方高度协作的过程。服务周期长、可变因素多,这使得公司在软件外包过程中面临重大风险。787 型飞机计划 70% 使用外包,最终导致了延期三年还交付不了,波音表示:“我们同时在技术、工具和供应链上做了太多改变,超出了我们的管理能力“。

使用 Ada 语言达到 99%

Ada 文档中的最佳案例上,有一个案例是讲波音 777 上的软件 99% 是用 Ada 完成,其中制动系统完全用 Ada 来完成。Ada 语言最早是针对嵌入式和实时系统设计的,属于 80 年代的编程语言,也是美国军方的专用计算机语言。但之后并没有被普及,甚至可以说 Ada 在“平民层”的推广很糟糕。一个普遍的关于欧洲空间局阿丽亚娜 5 型运载火箭失败的说法是,因为 Ada 语言在编译过程的检查失败导致的。那么有一个疑问是外包企业中,如何搜集到合适数量的精通 Ada 的程序员呢?

image

从求职网站前雇员对波音公司的评价中,除了抱怨 Ada 不好用,我们还得到了好几条令人惊讶的信息:

  1. 波音公司没有技术面试。
  2. 采购软件可能需要非常长时间。被多人抱怨技术过时,“使用古老的技术,该公司根本不重视升级或现代化工程,因为这些不能直接帮助他们销售飞机”。
  3. 管理层不懂 IT 技术,脱节明显,甚至有的视工程技术人员为累赘。

波音公司具有上百年的历史,具有 7000 多种自主开发软件,有非常多的经验可以供人参考,当然也有很多教训可让人汲取。作为传统企业数字化转型的先驱,它出现的每一个问题都值得我们去思考。那么你认为波音在软件开发中犯的致命错误是什么呢,不妨在文章后留言讨论。

延伸阅读:
波音 737 事故,软件化要不要“背锅”?


当金融、汽车、制造、零售等传统行业的产业互联网进程逐渐加快时,我们也不会无动于衷。把先进的软件技术介绍给更多传统行业,关注和挖掘传统行业优秀的技术实践是我们的使命。如果你对产业互联网的实践经验有兴趣,欢迎扫描以下二维码,进群与我们交流。

收藏

评论

微博

发表评论

注册/登录 InfoQ 发表评论

最新评论

有一个地方叫作遥远 2019 年 04 月 03 日 20:00 2 回复
紧急情况下不相信人,不能启动人工操作模式……这……怎么说呢,那个已故且拥有很长时间的飞行员死之前该有多无助和绝望啊……
Geek_af19ec 2019 年 03 月 25 日 10:42 0 回复
使用古老的技术没什么问题,往往是对系统可靠性要求极高的行业的常规操作
jerry 2019 年 03 月 23 日 22:40 1 回复
那个下压机头的设计本身太强制性 应该给飞行员最大的自由 毕竟飞行员才是最清楚当时情况的 起码要询问下飞行员是否有必要这么操作 应该是反馈各种实时数据让飞行员自己判断
或许是自动驾驶发展的过热的蝴蝶效应呢 0 回复
jerry 2019 年 03 月 23 日 22:24 0 回复
而且这个设计本身就有问题 我觉得软件应该给飞行员更大的自由度,为什么让一个软件直接操控飞机向下压,而不是先询问飞行员要不要这么操作,这种设计本身太强制,一点不友好,它的用户就是飞行员,要经过飞行员确认才行
其实相比波音而言,空客更加信赖「软件」,而波音则往往喜欢交给飞行员处理。从近几年的事故报告来看,波音的事故率明显高于空客,单纯信赖飞行员也不是解决方案。看过《空中浩劫》应该就知道,一些紧急的防护机制,例如失速警告、地形警告,等待飞行员确认或许是更加糟糕的选择,飞行员可能由于失能、眩晕而无法做出正确的判断和行为。 0 回复
jerry 2019 年 03 月 23 日 22:22 0 回复
裁那么多熟练培训的程序员肯定有问题 软件外包很多不行 外包人员有些不好好干活 故意拖延工期 因为这样他们可以获得更长时间的合同和工资
Geek_2eefea 2019 年 03 月 22 日 17:15 1 回复
可能那个程序员被裁,很不爽留了点伏笔.. 我觉的任何时候,都得可以切换回手动驾驶模式.. 智能系统不可能百分之百判断都是正确的..更何况在航空系统上,这人命关天的事阿.
同意 就跟移动驾驶一样 认为软件可以完全取代人那是错误的 因为使用者当时最清楚当时的状况 1 回复
优秀 0 回复
很棒 0 回复
InfoQ_db883bc7b688 2019 年 03 月 21 日 13:59 0 回复
这么大的公司,这么大的软件规模,出了这么大的事情,写出这点文章说其什么什么不好。 不好人家也造出了百年企业。 有些作者真的不知道这些消息都从何而来?你是波音的员工?还是根据你失败的经验在那意淫?
你是想说百年企业就不会倒了吗?别人发表个人看法都不行?说得不对你可以就事论事反驳啊,非得喷作者才开心? 0 回复
luofer 2019 年 03 月 20 日 10:24 1 回复
"管理层不懂 IT 技术,脱节明显,甚至有的视工程技术人员为累赘" 傲慢是最致命的
chaos 2019 年 03 月 19 日 17:13 0 回复
该航空公司入文章所说,具有很多的经验,正式这些经验使他们能够走到今天。而后可能正是经验给了他们自信使得他们慢慢的模糊了“安全”这个概念。
歐陽瑤璞 2019 年 03 月 16 日 10:30 1 回复
長官不是基層起身的,終究會與基層脫節。縱使基層做起來的長官,換了位置也會因為時勢、壓了而改變看法。
没有更多了