扫码打开虎嗅APP
本文来自微信公众号:InfoQ (ID:infoqchina),作者:冬梅、核子可乐,原文标题:《系统 bug 致百人入狱,砸了 2.8 亿元仍上云失败!二十年了,这家大企业被日本软件坑惨了》,题图来自:视觉中国
新年伊始,根据软件 bug 导致数百人锒铛入狱、多人自杀的真实事件改编的电视剧在英国播出后,公众对这起毁掉数百名英国邮政工人生活的丑闻的愤怒再次燃起。
在 1999 年至 2015 年期间,共有超 700 名邮局分局负责人因 Horizon 审计软件的 bug 而遭到起诉,之后富士通又陆续提出多项并不属实的财务问题。数百人因此被监禁或破产,期间至少四人因此选择自杀。
这部四集迷你剧播出后,一份长期请愿书的签名数量飙升至超过 100 万,要求剥夺前邮局 CEO 保拉·文内尔斯(Paula Vennells)的官方荣誉。
它达到了预期的效果。周二,文内尔斯屈服于压力,承诺“立即归还我的 CBE”。英国首相里希·苏纳克(Rishi Sunak)也介入其中,承诺 700 多名因从未犯下的罪行而受到起诉的邮政工人将“得到应有的赔偿”。
一、“英国邮局丑闻”事件回溯
那么,这件涉及数百名邮局工作人员、持续了 20 多年的“英国邮局丑闻”的起因和经过到底是怎样的?事情的起因还要从一个错误的会计软件说起。
1. 邮局局长对 Horizon 系统深信不疑
1999 年,英国邮政局开始在全英国范围内推出 Horizon 计算软件(由日本富士通公司制造)。该软件被引入用于管理英国邮局分支机构的金融交易。
Horizon 是 Pathway 项目的一部分。Pathway 项目的整体采购过程于 1994 年 8 月开始,目的是为了实现邮局福利支付的计算机化,用刷卡取代 Girocheques 和纸质版福利薄。据评估,这将每年减少 1.5 亿英镑的福利欺诈,同时提高邮局柜台的效率,增加小型分支机构的客流量并使其能够提供新服务。该项目耗资 15 亿英镑,由私人融资倡议资助。项目中标者将开发该系统并培训大约 70000 名邮局工作人员使用该系统,并从基于交易的收费中收回成本。
这份 15 亿英镑的天价合同于 1996 年 5 月花落 ICL Pathway 公司,该公司本身由日本富士通公司持有多数股权。
到 1998 年,Pathway 项目比计划晚了两年,成本增加,并且有人担心磁力卡即将过时。因此当时的英国邮局曾考虑取消该项目,但富士通向英国政府施压,要求其批准 IT 系统的推进。经过漫长的谈判后,邮局于 1999 年 5 月同意社会保障部退出,并放弃福利支付卡。但该项目仍将继续以 Horizon 名义缩小范围继续推进,成本高达 9 亿英镑,以取代邮局使用的纸质系统。
1999 年,邮局开始推出 Horizon。到 2000 年 8 月,该系统已在英国的 10000 个分支机构中推广,并于 2000 年和 2001 年部署到 13000 多个邮局分支机构。此外,Horizon 系统的前身已于 1995 年推广到 300 个邮局。
到了 2013 年,Horizon 已被至少 11500 个分支机构使用,每天处理约 600 万笔交易。Horizon 安装成本超过 10 亿英镑,最终影响了英国 18000 个邮局。
值得注意的是,在使用 Horizon 软件没过多久,就有邮局工作人员开始报告,Horizon 软件错误地列出了现金短缺,并抱怨该系统与邮局业务需求不匹配。他们向邮局管理层投诉系统存在错误,但没有得到重视,这些财务违规问题继续出现在全国各地的分行账户上。
2. Horizon 存在大量 bug 和数据错误,数百人因此锒铛入狱,至少 4 人自杀
Horizon 软件系统曾被视为“英国历史上最大决定失误”的核心——这套系统会记录不正确数据,包含大量 bug 和缺陷,并导致数百处邮政部门被误判为存在财务问题。英国邮局作为自诉人,错误地以盗窃和虚假会计罪对数百个分支机构负责人进行了审查。
面对这些对不上账目的资金短缺和缺乏管理层的支持,一些邮局的管理层,如副局长或部门主任试图用自己的钱来填补“财务漏洞”。
随着 Horizon 软件在英国邮局系统的普及,期间至少有两名使用该系统的副局长被指控欺诈,但是邮局职员关于 Horizon 软件“系统故障”的抗议却一直被忽视。许多分支机构负责人为此锒铛入狱、个人信用破产,有人甚至选择自杀,多达 900 名机构副手面临起诉。
一些员工因盗窃罪被判入狱。许多人在被指示退还被指控偷窃的钱财后面临财务破产,而人际关系的破裂以及几起自杀死亡事件都与英国大律师贾森·比尔所说的“近年来最严重的误判”有关。
比尔是持续对这起丑闻进行公开调查的律师,听证会于 2022 年 2 月正式开始。他表示,“声誉遭到破坏,很多员工被判罚的罪行都涉及不诚实行为。”
他补充说:“在国家公开承认他们被错误定罪之前,许多人已经不幸去世了。”
帕尔莫德·卡利亚是被错误监禁的人之一。2001 年,卡利亚被诬陷私吞超过 20000 英镑(按当前汇率计算为 25500 美元),被判处 6 个月监禁。这位伦敦东南部邮政局长甚至被迫向母亲借钱,以填补所谓的现金短缺。但是,邮局对 Horizon 系统的数据深信不疑,对他提起了起诉。直到 2021 年,他的判决才被推翻。
西玛·米斯拉(Seema Misra)是另一个。2010 年,这位英国邮政工作人员因涉嫌现金不符 74000 英镑(按目前汇率计算为 94000 美元)而被判处 15 个月监禁,当时她已怀孕八周。
“有人警告我,我可能会被监禁,”她向一家英国报纸讲述了自己的遭遇。“但老实说,我根本无法想象我怎么会因为我没有做过的事情而受到这样的惩罚。那时我对司法系统充满信心。当法官宣布我被判处 15 个月监禁时,我昏倒了。如果我没有怀孕,我就会自杀。我正处于谷底。”
和卡利亚一样,她的定罪直到 2021 年才被撤销。
2021 年,上诉法院撤销了对 39 名分支机构管理员的定罪,并发现起诉内容不实,认定英国邮局在 2003 年至 2013 年间对各管理员的起诉属于扰乱司法,整个过程可谓是“对司法的侮辱”。
Holroyde、Picken 与 Farbey DBE 法官在 2021 年 4 月的判决中发现,“在整个涉案期间,Horizon 系统的运行都存在重大问题……”
庭审结果指出,“英国邮局一直知晓 Horizon 系统的可靠性存在严重问题,因此有明确的义务调查各项线索的合理性,并应考虑披露并向院方解释任何可能颠覆案件判决的信息。然而在此期间,英国邮局似乎从未充分考虑过对 Horizon 系统提出质疑、或者表达相应的担忧。相反,其始终坚称 Horizon 系统是稳定且可靠的……”
代表 29 名前邮局负责人出庭的 Neil Hudgell 表示,英国邮局“不仅对其昂贵 IT 系统的缺陷视而不见,而且官僚主义盛行。为了维护个人声誉和利益,他们不惜采取各种手段和阴谋,甚至以许多普通员工的生命、自由和精神为代价。”
截至目前,英国邮局已经支付 8598 万英镑的赔偿金。但邮局方面和富士通的员工无人因此案受到起诉。
值得注意的是,直到 2021 年,邮局 IT 团队还在博客中提到由于“分局负责人在 Horizon 的日常使用中发现各种问题”,他们不得不制造出 981 个测试脚本以实施改进。不过在 The Stack 在早期报告中提及此事以来,英国邮局似乎删除了 IT 主管 Simon Oldnall 的所有博文,包括原本向关注用户推送的更新内容。
经过了数百名职员锒铛入狱的惨痛教训之后,英国邮局也在试图从 Horizon 系统中脱身,但却总是以失败告终。
二、固守 Horizon 导致上云失败,损失全年预算 81%
近日,据 The Stack 透露,英国邮局因 Horizon IT 丑闻期间犯下的“涉嫌欺诈罪行”而接受刑事调查,因此不得不“中止部分将现有软件迁移至云基础设施的转型计划”,最终导致在 2023 年内损失掉 3100 万英镑。
而如此巨大的损失额度,相当于英国邮局 2023 年全部重组成本的 81%。(12 月 20 日发布的年度报告显示,2023 年英国邮局年度重组总支出为 3800 万英镑,且“大部分支出与正在进行的 IT 基础设施改造计划有关,包括 Horizon 替代计划”。)
2021 年,英国邮局以 4250 万英镑的价码与富士通签订了 Horizon 项目扩展合同,并称其为“高度复杂的遗留平台,用于编写软件的语言版本已经严重过时,且整体架构不够灵活、导致技术变革非常困难。”但无论如何,这家备受争议的提供商仍然拿下了一系列数额可观的续约合同,英国邮局只是其中之一。
时间来到 2022 年,邮局工作人员曾在博客中热情介绍了其转向亚马逊云科技的计划。2021 年的合同也包含对现有服务协议的多项修订,计划在 2023 年将现有软件迁移至亚马逊云科技。但根据最新披露的数据,这项举措在“烧掉”3100 万英镑之后仍宣告失败。
英国邮局在 2023 年 4 月公开发布的合同通知中承认,“在将服务迁移至新云服务商的过程中,我司遭遇到经济和能力上均无法克服的基础技术挑战。”为此,邮局方面只能再花 1600 万英镑选择续约。
2023 年 11 月,英国邮局又与富士通续签了 3600 万英镑的合同,其中提到 Horizon“是一套极为复杂的平台,用于编写软件的语言严重过时,且自身属于五大系统的集合体——即金融服务、银行、政府服务、邮件和零售……Horizon 自身的架构设计也极不灵活,导致技术变革难以推进。”
在 11 月 21 日的合同通报中,英国邮局称这笔新的资本支出将用于“适当更新并改进迁移计划”。这显然表明之前公布的“我司已决定重新转向富士通提供的 Horizon 数据中心,并逐步将服务从 Horizon 迁移至替代方案 NBIT(即“New Branch IT”)计划遭遇瓶颈。由于只能继续使用原有数据中心,英国邮局自然需要对系统进行一番强化,以提供稳定性、避免过时并保障业务连续性。
三、作为 IT 从业者,我们能从 Horizon 事件中学到什么?
从持续了近 20 年的“英国邮局 IT 丑闻“到去年频出的大规模数据泄露,再到失败的 IT 项目,这些消息一经曝出往往都会成为头条新闻。虽然事件发生时总会让人深感遗憾,但我们常常可以从中吸取教训。
1. 供应商选不对,迁移“剥掉一层皮”
从此次 Horizon 系统迁出失败的案例可见,对复杂遗留系统进行现代化改造向来堪称技术团队的噩梦。可在短短一年之间因误判而烧掉 3100 万英镑,同时继续向共同导致这一巨大损失的软件提供商拱手奉上数千万英镑续约款——这种行为与其说是愚蠢,倒更像是“资敌”。
而且事实证明,只要选择理想的合作伙伴,复杂的现代化改造工作也并非无法快速实现。
以美国陆军为例,其于 2021 年曾在短短 24 小时内就通过后勤现代化计划(LMP)由本地服务器迁移至超大规模基础设施环境。LMP 计划负责为全球 50 个位置的超 2.3 万用户提供支持,撑起陆军的整个供应链(也是世界上体量最大的供应链之一),用以托管装备筹备情况、资产管理、军火库存等数据。该系统每天管理 700 万条事务,并与 80 多个国防部系统相集成。虽然考虑到军方背景对于迁移精细度的严苛要求,但整个过程在短短 24 个小时内完成,已经足以令英国邮局方面汗颜。
2. 计算机并非万无一失
盲目相信技术并不比不相信技术好。即使具有 99.99% 准确度的强大系统也会有 0.01% 的时间出错。邮局应该意识到,数百名个体小企业主报告了与该软件相同的问题,值得调查。相反,他们似乎更愿意相信数百名副邮政局长是罪犯。
过于依赖计算机会付出惨痛的代价。
例如,2017 年,英国国家医疗服务体系(NHS)成为“WannaCry”全球网络攻击最引人注目的受害者之一。WannaCry 是一种勒索软件,即通过网络传播、感染台式机、笔记本电脑和移动设备的恶意软件。一旦进入网络,它就会对其找到的所有数据进行加密,并向所有者发送勒索信,索要数百或数千英镑,通常是比特币等加密货币,然后才能解密数据。如果不支付赎金,数据就会被销毁。WannaCry 导致 NHS 陷入瘫痪数天。数千次手术和全科医生预约被取消,工作人员被迫恢复使用笔和纸。确切的损失尚不清楚,但据估计,此次袭击给 NHS 造成了约 9200 万英镑的损失。
3. 软件必须保持最新
使用过时的、不受支持的软件,或者未能修补受支持软件中的已知漏洞,就像让企业的业务大门完全敞开一样。所有组织都应定期更新软件,在补丁可用时立即安装补丁,并及时更换不受支持的软件。此外,制定 灾难恢复计划并进行测试也十分重要。
还拿上述案例来说,当 WannaCry 攻击开始后,很明显 NHS 尚未针对网络攻击进行预演。卫生部确实有一个计划,但该计划尚未得到充分传达或测试。制定网络事件响应计划是良好的第一步,但确保每个人都熟悉该计划以及对其进行测试也至关重要。
4. 复杂的迁移不可操之过急
迁移到新的 IT 系统是复杂且有风险的,并且需要时间。事实上,压缩的时间计划表是 IT 项目失败的主要原因之一。
2018 年,计算机系统故障导致 190 万 英国劳埃德银行(TSB)客户无法在线办理银行业务,其中一些客户长达数周之久。这次失败使银行损失了 3.3 亿英镑的赔偿,并失去了 80000 名客户。
是什么让银行破产了?1995 年,劳埃德银行(Lloyds Bank)和 TSB 合并,成立了劳埃德 TSB (Lloyds TSB)。然而,2008 年的银行危机导致政府出台了一项救助计划,使他们获得了该公司的主要股份。这被视为国家援助,因此欧盟要求该银行出售部分资产。TSB 被西班牙银行 Sabadell 出售并收购。起初,TSB 继续使用 Lloyds 的 IT 系统,但 Sabadell 渴望尽快结束这种安排,因此 TSB 计划迁移到 Sabadell 的 Proteo 平台。
就失败的 IT 项目而言,这是一个大问题:它出了严重的错误。近 200 万客户被锁定在网上银行至少一周(许多人长达数周),一些用户报告能够看到属于其他客户的详细账户信息。
一份独立报告发现,TSB 匆忙进行了迁移,任意决定了迁移日期,不允许进行充分的“实时”测试。此外,他们只对他们将使用的两个数据中心之一进行了测试,尽管这两个数据中心并不是按照相同的规格建造的。
像 TSB 那样进行大规模迁移(一次性迁移所有客户)的风险尤其大。更加交错的迁移可以在客户受到影响之前发现缺陷。
参考链接:
https://www.thestack.technology/post-office-horizon-extension-fujitsu-cloud/
https://intersys.co.uk/2021/08/05/failed-it-projects/
https://www.theguardian.com/business/2024/jan/07/what-is-the-post-office-horizon-it-scandal-all-about
https://www.aljazeera.com/news/2024/1/9/the-great-british-post-office-scandal-explained
本文来自微信公众号:InfoQ (ID:infoqchina),作者:冬梅、核子可乐