欧元

博客

Maersk Rebuilt Its Entire IT Infrastructure to Recover From NotPetya – A Cyber Resilience Case Study

Alexandra Blake
由 
Alexandra Blake
13 minutes read
博客
12 月 16, 2025

马士基重建整个IT基础设施以从NotPetya恢复:网络弹性案例研究

立即构建统一的恢复剧本,以应对网络冲击。. 您的组织从一个有弹性的IT骨干、明确的归属权以及涵盖人员、流程和技术的计划中获益,从而可以 恢复 当漏洞出现时迅速行动。.

2017 年 8 月,马士基遭遇 NotPetya 攻击,被迫关闭其全球 IT 网络和航运系统。从那一刻起,团队不得不重建数千台服务器,重建数据流,并以最短的停机时间恢复运营。公开估计显示,直接损失约为 3 亿美元,重建成本也大致相当,因为他们是从零开始重建,这在当时看似是不可能完成的挑战。.

重建工作从一张白纸开始:云优先架构、标准化的技术堆栈以及用于加速恢复时间的自动化。他们用可在各区域使用的模块化组件取代了脆弱的、定制的工具。这项工作采用了一种医学博士框架来协调安全和运营,减少了恢复关键服务的时间,并为可扩展的、有竞争力的、能够承受未来冲击的 IT 平台奠定了基础。这种设计有助于克服未来的中断,并保持业务部门的在线状态。.

在技术与运营交汇之处,马士基建立了具有安全意识的企业文化和严谨的事件响应机制。他们协调了供应商、内部团队和供应链中的合作伙伴,确保客户和货运的持续性。他们的生态系统包括与快递合作伙伴和联邦快递的协调,即使网络的部分环节离线,也能保持货物流动。.

通常,重建取决于人员、流程和合作伙伴。对于您的团队,重点是绘制关键系统图、验证备份以及每季度运行恢复演练。清楚了解资源的去向,并确保您的预算与降低风险相符。同时让您的供应商和物流合作伙伴参与进来,以加强端到端链条,因为只有当技术、人员和合作伙伴协同工作时,韧性才能持久。.

NotPetya 影响和补救里程碑

当务之急:几分钟内隔离受影响的部分,切换到干净的备份,并在严格的治理和每日更新电话会议下开始分阶段重建。这能保证未受影响侧的运营,同时您可以专注于遏制和明确的恢复路径。.

  1. 检测后几分钟内:控制并切断横向移动;关闭非必要服务,禁用高风险远程访问,撤销被盗凭证,并为关键资产创建快照,以防止航运业务使用的数据骤降。.
  2. 2017年7月巨头公司醒悟:将国家网络安全列为首要任务;调整跨职能团队以聚焦重点领域;绘制快照以发现攻击模式和缺口;发布首个更新的事件响应计划,并通过简短的更新电话向领导层通报情况。.
  3. 评估与计划:清点整个运输环节使用的库存资产;按重要性分类;从头开始设计重建主干网,采用分段网络和默认安全基线;准备可最大限度减少对客户影响的迁移路径。.
  4. 设计与重建:以模块化、弹性的设计重建核心IT堆栈;设计控制强调最小权限原则、多因素认证访问、严格的补丁节奏以及增强的监控;网络安全成为行业范围内的优先事项,并指导供应商风险管理。.
  5. 迁移和测试:执行并行迁移以避免停机;在每次切换后的几分钟内验证数据完整性;在重建后的环境中两周内完成端到端测试,并与利益相关者保持清晰的更新通话。.
  6. 强化运营:部署安全运营中心,更新操作手册,定期演练,并与合作伙伴保持一致;降低关键路径中的风险,替换或沙盒化不符合控件的热门工具,并保持整体足迹精简,避免受旧有依赖项影响。.
  7. 成果与经验:公司获得了改进的平均修复时间(MTTR)和更高的可见性;“NotPetya”事件敲响了警钟,促使行业投资于网络安全卫生和弹性架构;重建的平台以更高的可靠性和清晰的风险管理状态支持航运业务。.

NotPetya 爆发时间线、中断持续时间和紧急遏制

在首小时内隔离受影响的网络,并切换到离线备份以快速恢复,同时记录所有站点的清晰遏制计划。.

NotPetya 爆发始于 2017 年 6 月下旬的乌克兰网络,源头可追溯到一个被入侵的 medoc 更新。从那里,感染蔓延到全球,通过蠕虫式传播和 Windows 漏洞进入其他网络,使其能够在整个组织中横向移动。马士基航运运营商马士基发现其航运和物流业务崩溃,原因是域控制器、文件共享和 ERP 服务崩溃。在几个小时内,从亚洲到欧洲再到美洲的办事处都失去了对关键系统的访问权限,突显了乌克兰 medoc 生态系统中一个供应链弱点如何冲击许多业务线,并为该行业带来巨大的破坏。.

中断持续时间因站点而异。许多部门的核心 IT 服务中断约 10 天,而运输业务在接下来的两周内逐步恢复。到 7 月初,电子邮件和关键应用程序开始恢复,到 7 月中旬,大多数后台流程已在一定程度上恢复。速度取决于备份、网络分段以及团队切换到预订、舱单和船舶交接等离线流程的速度。这种情况表明,上游问题如何影响许多职能,并最终波及全球的运营。.

紧急遏制和重建遵循了一套严格的方案。主席呼吁采取迅速的跨国行动,团队执行了各个步骤,以阻止横向移动,切断外部访问,并依靠离线备份来完成关键任务。马士基从头开始重建其IT骨干,采用加固的、分段的防线,并更新了事件应对手册,以降低未来的风险。此次爆发突显了medoc等第三方软件的风险,并促使 snabes 和行业同行提高复原能力措施,加强网络卫生,并填补运营中的漏洞,以获得竞争优势。许多人注意到,事件发生后,他们的航运网络恢复得更快,该行业在紧急遏制和可恢复性方面达到了更强的基线。.

重建IT骨干:架构大修与安全加固

从一个具体的行动开始:更换遗留服务器,安装现代化的、可扩展的镜像,并部署分层安全态势。指定一位治理负责人,运行受控试点,并确保该计划将停机时间控制在几分钟内,而不是几小时。这种方法会产生明确的结果,并使您专注于韧性。您应该关注的是降低风险,并确保整个组织内的持续服务。.

  • 清点所有服务器、计算节点、存储和网络设备;绘制关键工作流程;识别依赖关系和单点故障。.
  • 记录本地部署和云资源之间的数据流;追踪依赖关系,防止盲点。.
  • 按风险对系统进行优先级排序:首先是面向客户的应用程序,然后是内部工具;为每个集群设置迁移天数目标,并使用有时限的里程碑跟踪进度。.
  • 设立治理主席,并每周召开电话会议,以审查进展并根据需要调整范围。.
  • 制定包含回滚路径的计划,以避免中断,同时不影响业务连续性。.
  • 分段网络以限制横向移动,并在策略端强制执行最小权限原则。.
  • 用解耦的、容器化的工作负载替换单体服务;标准化镜像和配置基线;淘汰旧服务器。.
  • 使用 SSO、MFA 和特权访问管理来巩固身份;与现有目录服务集成。.
  • 引入集中式日志和监控堆栈;确保数据被摄取、索引并可搜索,以实现更快的根本原因分析。.
  • 计划在干净的环境中重新安装关键服务以消除漂移;应用更新后的基线并安全地停用已弃用的组件。.
  • 实施固定的补丁管理节奏:每月扫描,关键漏洞在24–48小时内紧急修复;通过自动检查验证成功。.
  • 应用配置基线(CIS STIG 或供应商等效项);禁用未使用的功能;强制执行审计。.
  • 在端点上部署EDR,在网络边缘部署IDS/IPS,并采用微隔离防火墙规则来最大限度地减少暴露面。.
  • 集中日志,建立SIEM,并设置警报阈值以减少误报;使用手册定期运行警报验证。.
  • 加强备份:加密的异地副本并测试恢复;每季度执行一次灾难恢复演练并验证RPO。.
  1. 第 0–14 天:发现、清单、风险登记、目标架构,并最终确定迁移计划;与他们的利益相关者建立每周一次的治理电话会议。.
  2. 第 15–30 天:重新安装核心服务器和操作系统镜像;基线配置;开始网络分段和身份强制执行;确认备份有效。.
  3. 第 31–60 天:将工作负载迁移到新镜像;部署 MFA、PAM 和零信任策略;更新 CI/CD 管道;以最少的停机时间进行试点切换。.
  4. 第61-90天:验证加固,进行DR演练、桌面推演;最终确定运行手册并移交给运维部门;衡量MTTR和正常运行时间改进情况。.

指标与结果:关键事件的检测和响应时间目标在15分钟内;核心服务平均恢复时间低于两小时;新主干网初始90天内的正常运行时间高于99.91%;演练期间一小时内恢复备份;季度灾难恢复验证确认就绪状态。配置漂移和失误导致的事件显著减少,警醒电话证明许多公司可以通过规范的自动化克服历史遗留问题。他们的服务器重装时间显著提高,经验表明,增加的自动化、经过测试的运行手册和明确的责任线推动了可靠的服务,即使在压力下也是如此。.

这一警醒让他们的公司意识到,如果没有自动化和明确的责任归属,手动维护就会成为瓶颈。增加的治理和实践演练为他们的团队提供了所需的东西:一个强大、可重复的流程,可以在几天内(而不仅仅是时间)从问题过渡到解决方案。您的重点始终放在重要的事情上——服务质量、快速恢复和持续改进——同时架构以速度和可靠性为之提供支持。.

数据保护:备份、恢复测试和数据完整性检查

实施不可变备份,并每月运行恢复测试,以验证在发生如NotPetya等事件后的快速恢复能力。对于马士基来说,这种方法减少了损失并缩短了停机时间。将副本离线存储并存储在单独的网络分段中,以限制网络攻击期间的暴露。.

详细的备份程序可保护许多系统中的数据。使用版本化的快照、离线存储库和自动完整性检查。手动恢复演练应确认在干净环境中的重新安装步骤可以恢复所有服务。.

数据完整性检查使用校验和、逐位比较和端到端验证来验证恢复的数据与原始数据是否一致。如果发现不匹配的情况,团队会在影响客户之前修复数据复制或勒索软件防护中的漏洞。.

在整个运输网络中演练完整恢复:数据库、文件存储以及运输单据(如快递清单)。这种做法即使在偏远站点发生中断时也能保持服务连续性。.

设定自动备份的节奏,并每周进行人工验证。NotPetya的警钟依然在耳,提醒我们技术选择、流程和治理必须保持一致,以保护关键数据。.

马士基发现,仅仅备份并不能保证弹性;恢复敏捷性至关重要。运行Wannacry情景测试,以确认网络、端点和云层可以在不丢失数据的情况下重新连接。.

主席表示,数据保护的未来在于主动测试和明确的所有权。进入一个循环,团队在任何实时事件发生前,验证备份、恢复和完整性检查。.

随着时间的推移,IT、运输和维修团队的努力构建了一个更具连接性的保护层。发现许多安全措施现在协同工作,以防止损坏并在需要时加速重新安装。.

网络和身份:分段、 IAM 控制和特权访问

网络和身份:分段、 IAM 控制和特权访问

立即实施严格的网络分段,以在无需手动隔离的情况下控制违规行为。将服务器、应用程序和数据存储分离到不同的区域中,并在每个工作负载边界应用策略。添加微隔离,强制执行身份驱动的规则,并通过防火墙和基于主机的控制来监控东西向流量。对于maersk,重建后的IT网络将核心服务、业务应用程序和外部接口分为三个区域,并自动测试分段,在几分钟内验证隔离。.

IAM 控制优先考虑最小权限和快速、受控的访问。部署 RBAC 和即时 (JIT) 特权访问,要求所有管理员会话启用 MFA,禁用共享帐户,并使用自动轮换的金库凭据。在本地和云工作负载中统一应用策略,以便每个特权操作都可审计。这些措施可减少攻击面并支持整个环境的更新周期。从 NotPetya 之后的经验教训来看,身份和网络变更得到了加强。.

特权访问管理可以加强对管理员和服务帐户的控制。使用 PAM 解决方案来保存凭据、轮换密钥、在服务器和应用程序上强制执行最小权限,并要求使用带有会话记录的跳转主机。使用快照标记动态权限,以便将访问权限映射到特定操作,并确保主席强制执行跨团队的季度审查和政策遵守情况。.

监控和治理将整个方法联系在一起。集中日志,强制执行异常尝试的实时警报,并运行定期访问审计。建立用于在人员变动后撤销访问权限的 SLA,并维护与重建里程碑和法规要求相符的不可变跟踪。.

Area Recommendation Timing Owner
Network segmentation 将服务器、应用程序和数据隔离在不同的区域中;部署工作负载级别的策略和自动化测试;监控错误配置 分钟级部署;持续进行中 网络主管
IAM 控制 RBAC + JIT;需要 MFA;无共享帐户;凭证已保管并轮换;跨云策略 全面推出需数周;持续进行 IAM 团队
特权访问 具有凭据保险库、会话录制、跳转主机和最小权限原则的 PAM 关键路径立即执行;其他路径分阶段执行 安全工程
监测与审计 集中式 SIEM,异常检测,定期审查,可追溯的决策 Continuous CSIRT / SOC

领导叙事:首席执行官洞察、利益相关者沟通及业务复苏轨迹

建议:建立高管危机专线,每隔几分钟更新一次情况,由一人负责决策,并建立面向公众的服务状态页面,以减少客户和合作伙伴的不确定性。.

首席执行官将NotPetya事件重新定义为针对恶意活动的业务弹性测试,而非纯粹的IT问题。通过坦率地谈论风险,首席执行官统一了领导层,缩短了决策周期,并使团队专注于保护客户和关键服务。该方法还承认了我们研究过的Wannacry式威胁,从而指导了我们的准备和应对心态。.

利益相关者沟通成为一种规范化的实践:我们向董事会、执行团队和主要合作伙伴发布简洁、事实性的更新。在说明我们所处位置的同时,我们解释了服务恢复的时间、损害控制措施以及我们预计对产品线的影响。想象一下,如果没有这些更新,沟通渠道将会模糊,信任将会瓦解。清晰的沟通渠道减少了猜测,并在每个利益相关者之间建立了信任。.

恢复轨迹:我们重建了核心基础设施,包括巨型数据中心,使用了更新的服务器、新的网络分段和强化的备份。这项工作昼夜不停地进行,将停机时间从几天减少到几小时,然后在关键窗口减少到几分钟。我们发现并行工作流加速了恢复,并且我们增加了冗余线路和容错服务方法,使产品发布得以恢复,并且面向客户的服务以受控的顺序上线。重建后的主干网使公司为未来做好准备,并限制了类似爆发造成的损害。.

经验教训与行动:我们实施了一个模块化且经过测试的事件响应剧本;建立了稳健的供应商风险计划,以避免供应链冲击——认识到事件如何像联邦快递一样波及合作伙伴;培训团队管理网络空间的网络威胁;并确保每位领导者都看到 IT 韧性与业务价值之间的联系。我们增加了监控、检测和更快的决策线,以防止未来的危机演变成更长时间的 disruption。重点仍然放在客户、产品和服务线上,取得了明显的进展和持续的改进,并记录了许多具体步骤,为未来做好准备。.