Maersk: ricostruzione dell'IT e resilienza informatica dopo l'attacco NotPetya

Maersk ha ricostruito interamente la sua infrastruttura IT per riprendersi da NotPetya: un caso di studio sulla resilienza informatica

Crea subito un playbook di ripristino unificato per sopravvivere a uno shock informatico. La tua organizzazione trae vantaggio da una dorsale IT resiliente, una chiara titolarità e un piano che copre persone, processi e tecnologia per recupera rapidamente quando si verifica una violazione.

Nell'agosto 2017, Maersk ha affrontato NotPetya, che ha forzato l'arresto delle sue reti IT globali e dei sistemi di spedizione. Da quel momento, i team hanno dovuto ricostituire migliaia di server, ricostruire i flussi di dati e ripristinare le operazioni con tempi di inattività minimi. Le stime pubbliche stimano le perdite immediate a circa 300 milioni di dollari, con costi di ripristino dello stesso ordine di grandezza durante la ricostruzione da zero, una sfida che un tempo sembrava impossibile.

La ricostruzione è iniziata da zero: architettura cloud-first, stack tecnologici standardizzati e automazione per velocizzare i tempi di ripristino. Hanno sostituito strumenti fragili e personalizzati con componenti modulari utilizzabili in tutte le regioni. L'iniziativa ha adottato un framework medoc per allineare sicurezza e operations, riducendo i tempi di ripristino dei servizi critici e gettando le basi per una piattaforma IT scalabile e competitiva, in grado di resistere agli shock futuri. Questo design aiuta a superare le future interruzioni e mantiene operative le linee di business.

Dove la loro tecnologia incontra le operazioni, Maersk ha costruito una cultura orientata alla sicurezza e una risposta agli incidenti disciplinata. Ha allineato fornitori, team interni e partner lungo tutta la catena di approvvigionamento, garantendo la continuità per clienti e spedizioni. Il loro ecosistema includeva il coordinamento con i partner di corriere e con FedEx per mantenere il flusso in movimento anche quando parti della rete erano offline.

Normalmente, una ricostruzione si basa su persone, processi e partner. Per il tuo team, concentrati sulla mappatura dei sistemi critici, sulla convalida dei backup e sull'esecuzione di simulazioni di ripristino trimestrali. Mantieni una visione chiara di dove vanno le risorse e assicurati che il tuo budget sia allineato alla riduzione del rischio. Coinvolgi anche i tuoi fornitori e partner logistici per rafforzare la catena end-to-end, perché la resilienza dura dove tecnologia, persone e partner lavorano insieme.

NotPetya: impatto e tappe fondamentali per il ripristino

Azione immediata: isolare i segmenti interessati in pochi minuti, passare a backup puliti e iniziare una ricostruzione graduale con governance rigorosa e una call di aggiornamento quotidiana. Questo mantiene le operazioni in movimento sul lato non interessato mentre ci si concentra sul contenimento e su un solido percorso di ripristino.

Subito dopo il rilevamento: contenere e bloccare i movimenti laterali; chiudere i servizi non essenziali, disabilitare l'accesso remoto rischioso, revocare le credenziali compromesse ed eseguire snapshot delle risorse critiche per impedire l'eliminazione di dati utilizzati dalle operazioni di spedizione.
Luglio 2017, campanello d'allarme per la grande azienda: elevare la cyber-security statale a massima priorità; allineare i team interfunzionali sulle aree di interesse; mappare gli snabes per individuare schemi di attacco e lacune; pubblicare il primo piano aggiornato di risposta agli incidenti e tenere informata la leadership con brevi aggiornamenti telefonici.
Valutazione e piano: inventario degli asset usati nel settore spedizioni; classificazione in base alla criticità; progettazione di una dorsale ricostruita da zero con reti segmentate e una baseline sicura per impostazione predefinita; preparazione di percorsi di migrazione che riducano al minimo l'impatto sui clienti.
Progettazione e ricostruzione: ricostruzione dello stack IT principale con una progettazione modulare e resiliente; i controlli di progettazione enfatizzano il principio del privilegio minimo, l'MFA per l'accesso, una rigorosa cadenza di patch e il monitoraggio avanzato; la sicurezza informatica diventa una priorità a livello di settore che guida anche la gestione del rischio dei fornitori.
Migrazione e test: eseguire migrazioni side-by-side per evitare tempi di inattività; convalidare l'integrità dei dati entro pochi minuti da ogni switch; completare i test end-to-end nel nuovo ambiente ricostruito entro due settimane e mantenere aggiornamenti chiari con le parti interessate.
Rafforzamento operativo: implementare un centro operativo di sicurezza, aggiornare i manuali operativi, eseguire esercitazioni periodiche e mantenere allineati i partner; ridurre il rischio nelle aree critiche, sostituire o isolare in sandbox gli strumenti diffusi che non soddisfano i controlli e mantenere l'impronta complessiva snella da dipendenze legacy.
Risultati e apprendimenti: l'azienda ottiene un MTTR migliorato e una migliore visibilità; l'impatto di NotPetya funge da campanello d'allarme per il settore affinché investa nell'igiene della sicurezza informatica e in un'architettura resiliente; la piattaforma ricostruita supporta le operazioni di spedizione con maggiore affidabilità e un chiaro stato di gestione del rischio.

Cronologia dell'attacco NotPetya, durata dell'interruzione e misure di contenimento di emergenza

Isolare le reti interessate entro la prima ora e passare ai backup offline per ripristinare rapidamente, documentando al contempo un piano di contenimento chiaro per tutti i siti.

L'epidemia di NotPetya è iniziata a fine giugno 2017 nelle reti ucraine, riconducibile a un aggiornamento compromesso di MeDoc. Da lì, l'infezione si è diffusa in tutto il mondo, spostandosi in reti aggiuntive attraverso una propagazione simile a un worm e una vulnerabilità di Windows che le ha permesso di muoversi lateralmente tra le organizzazioni. Maersk, l'operatore Maersk Line, ha visto le sue operazioni di spedizione e logistica bloccarsi a causa del collasso dei controller di dominio, delle condivisioni di file e dei servizi ERP. In poche ore, gli uffici dall'Asia all'Europa alle Americhe hanno perso l'accesso ai sistemi critici, sottolineando come una singola debolezza della supply chain nell'ecosistema ucraino di MeDoc potesse colpire molte linee di business e creare enormi interruzioni per il settore.

La durata dell'interruzione è variata a seconda del sito. I servizi IT principali sono stati interrotti per circa 10 giorni in molte unità, mentre le operazioni di spedizione sono riprese gradualmente nelle due settimane successive. All'inizio di luglio, l'e-mail e le applicazioni chiave hanno iniziato a tornare operative e, a metà luglio, la maggior parte dei processi di back-office si erano ripresi in una certa misura. La velocità dipendeva dai backup, dalla segmentazione della rete e dalla rapidità con cui i team potevano passare a processi offline per prenotazioni, manifesti e consegne delle navi. La situazione dimostra come i problemi a monte possano influire su molte funzioni e ripercuotersi sulle operazioni in tutto il mondo.

Il contenimento e la ricostruzione d'emergenza hanno seguito un copione preciso. Il presidente ha chiesto un'azione rapida e transfrontaliera e i team hanno eseguito le fasi per bloccare il movimento laterale, interrompere l'accesso esterno e fare affidamento sui backup offline per le attività critiche. Maersk ha ricostruito la sua dorsale IT da zero, con una linea di difesa rinforzata e segmentata e playbook di incident aggiornati per ridurre i rischi futuri. L'epidemia ha evidenziato il rischio relativo a software di terze parti come medoc e ha spinto snabes e colleghi del settore ad aumentare le misure di resilienza, rafforzare l'igiene informatica e colmare le lacune nelle loro operazioni per ottenere un vantaggio competitivo. Molti hanno notato che, dopo l'incidente, le loro reti di spedizione si sono riprese più rapidamente e il settore ha raggiunto una base di partenza più solida per il contenimento e la ripristinabilità in caso di emergenza.

Rifacimento della spina dorsale IT: revisione dell'architettura e rafforzamento della sicurezza

Inizia con un'azione concreta: sostituisci i server obsoleti, installa immagini moderne e scalabili e implementa una postura di sicurezza a più livelli. Nomina un responsabile per la governance, esegui un progetto pilota controllato e assicurati che il piano mantenga i tempi di inattività a pochi minuti anziché ore. Questo approccio produce un risultato chiaro e mantiene la tua attenzione sulla resilienza. Il tuo obiettivo dovrebbe essere ridurre il rischio e garantire un servizio continuo in tutta l'organizzazione.

Inventariare tutti i server, i nodi di calcolo, lo storage e i dispositivi di rete; mappare i flussi di lavoro critici; identificare le linee di dipendenza e i singoli punti di errore.
Documenta i flussi di dati tra risorse on-premise e cloud; traccia la linea di dipendenze per prevenire zone d'ombra.
Dare la priorità ai sistemi in base al rischio: app rivolte ai clienti per prime, poi strumenti interni; stabilire un obiettivo di giorni di migrazione per cluster e monitorare i progressi con scadenze temporali.
Stabilire un responsabile della governance e una chiamata settimanale per esaminare i progressi e adeguare l'ambito, se necessario.
Pianifica un percorso di ripristino per evitare interruzioni senza compromettere la continuità aziendale.

Segmentare le reti per limitare il movimento laterale e applicare il principio del minimo privilegio a livello di policy.
Sostituisci i servizi monolitici con workload containerizzati e disaccoppiati; standardizza le immagini e le baseline di configurazione; ritira i vecchi server.
Consolida l'identità con SSO, MFA e gestione degli accessi privilegiati; integra con i servizi di directory esistenti.
Introdurre uno stack centralizzato di logging e monitoraggio; assicurarsi che i dati vengano acquisiti, indicizzati e che sia possibile effettuare ricerche per un'analisi della causa principale più rapida.
Pianificare la reinstallazione dei servizi critici in un ambiente pulito per eliminare la deriva; applicare baseline aggiornate e ritirare in modo sicuro i componenti obsoleti.

Implementare una cadenza fissa per la gestione delle patch: scansioni mensili, patch di emergenza entro 24-48 ore per vulnerabilità critiche; verificare il successo tramite controlli automatizzati.
Applica baseline di configurazione (CIS STIG o equivalenti del fornitore); disabilita le funzionalità non utilizzate; applica l'auditing.
Implementare EDR sugli endpoint, IDS/IPS ai margini della rete e regole firewall microsegmentate per minimizzare l'esposizione.
Centralizzare i log, implementare un SIEM e impostare soglie di avviso per ridurre i falsi positivi; eseguire regolarmente la convalida degli avvisi con i runbook.
Rafforzare i backup: copie crittografate e offsite con ripristino testato; eseguire esercitazioni di DR trimestrali e validare gli RPO.

Giorni 0–14: scoperta, inventario, registro dei rischi, architettura di destinazione e finalizzazione del piano di migrazione; impostare una chiamata di governance settimanale con i loro stakeholder.
Giorni 15–30: reinstallazione dei server principali e delle immagini del sistema operativo; configurazioni di base; inizio della segmentazione della rete e imposizione dell'identità; conferma della validità dei backup.
Giorni 31–60: migrazione dei carichi di lavoro alle nuove immagini; implementazione di MFA, PAM e policy zero-trust; aggiornamento delle pipeline CI/CD; esecuzione di cutover pilota con tempi di inattività minimi.
Giorni 61–90: convalidare l'hardening, condurre esercitazioni di Disaster Recovery, esercizi di simulazione; finalizzare i runbook e consegnarli alle operations; misurare i miglioramenti di MTTR e uptime.

Metriche e risultati: tempo di rilevamento e risposta inferiore a 15 minuti per eventi critici; MTTR per i servizi principali inferiore a due ore; uptime superiore al 99,9% durante i primi 90 giorni della nuova dorsale. Ripristino dei backup entro un'ora durante le simulazioni; la convalida trimestrale del DR conferma la preparazione. Gli incidenti causati da scostamenti di configurazione e errori diminuiscono significativamente, e la sveglia dimostra che molte aziende possono superare le lacune ereditate con un'automazione disciplinata. Il loro tempo di reinstallazione dei server migliora notevolmente, e l'esperienza dimostra che l'automazione aggiuntiva, i runbook testati e le chiare linee di proprietà guidano un servizio affidabile anche sotto stress.

Questo risveglio fa capire alle loro aziende che senza automazione e una chiara titolarità, la manutenzione manuale diventa un collo di bottiglia. Una governance aggiuntiva ed esercitazioni pratiche forniscono ciò di cui i loro team hanno bisogno: un processo solido e ripetibile per passare dal problema alla soluzione in giorni, non solo nel tempo. La tua attenzione rimane su ciò che conta: qualità del servizio, ripristino rapido e miglioramento continuo, mentre l'architettura lo supporta con velocità e affidabilità.

Protezione dei dati: backup, test di ripristino e controlli di integrità dei dati

Implementare backup immutabili ed eseguire test di ripristino mensilmente per convalidare il ripristino rapido dopo incidenti come NotPetya. Per Maersk, questo approccio ha ridotto i danni e diminuito i tempi di inattività. Archiviare copie offline e in un segmento di rete separato per limitare l'esposizione durante un attacco informatico.

Procedure di backup dettagliate proteggono i dati su molti sistemi. Utilizzare snapshot con controllo di versione, archivi offline e controlli di integrità automatizzati. Un'esercitazione di ripristino manuale dovrebbe confermare che i passaggi di reinstallazione su un ambiente pulito ripristinino tutti i servizi.

I controlli di integrità dei dati verificano i dati ripristinati rispetto agli originali, utilizzando checksum, comparazioni bit per bit e convalida end-to-end. Se si riscontrano delle discrepanze, i team risolvono le lacune nella replica dei dati o nella protezione dal ransomware prima che i clienti ne siano colpiti.

Eseguire prove complete di ripristino sull'intera rete di spedizione: database, archivi di file e documenti di spedizione come i manifesti dei corrieri. Questa pratica garantisce la continuità del servizio anche quando si verificano interruzioni in siti remoti.

Imposta una cadenza per i backup automatici, oltre a verifiche manuali settimanali. La sveglia causata da NotPetya rimane un promemoria del fatto che scelte tecnologiche, processi e governance devono allinearsi per proteggere i dati critici.

Maersk ha scoperto che i backup da soli non garantiscono la resilienza; l'agilità nel ripristino è ciò che conta. Esegui test di scenario wannacry per confermare che i livelli di rete, endpoint e cloud si riconnettano senza perdita di dati.

Il presidente afferma che il futuro della protezione dei dati si basa su test proattivi e chiara titolarità. Entra in un ciclo in cui i team convalidano backup, ripristini e controlli di integrità prima di qualsiasi evento live.

Nel tempo, gli sforzi dei team IT, spedizioni e assistenza hanno creato uno stack di protezione più connesso. Sono state trovate molte misure di sicurezza che ora collaborano per prevenire danni e velocizzare la reinstallazione quando necessario.

Network e identità: segmentazione, controlli IAM e accessi privilegiati

Implementare immediatamente una segmentazione di rete rigorosa per contenere le violazioni senza intervento manuale. Separare server, applicazioni e archivi di dati in zone distinte e applicare policy ad ogni confine del workload. Aggiungere microsegmentazione, imporre regole basate sull'identità e monitorare il traffico Est-Ovest tramite firewall e controlli basati sull'host. Per møller-maersk, la rete IT ricostruita ha raggruppato servizi core, applicazioni aziendali e interfacce esterne in tre zone, e ha testato la segmentazione automaticamente, convalidando l'isolamento in pochi minuti.

I controllano le priorità per il minimo privilegio e l'accesso rapido e controllato. Implementa RBAC e accesso privilegiato Just-In-Time (JIT), richiedi l'MFA su tutte le sessioni di amministrazione, disabilita gli account condivisi e proteggi le credenziali con la rotazione automatizzata. Applica le policy in modo uniforme ai carichi di lavoro on-premise e cloud, in modo che ogni azione privilegiata sia controllabile. Queste misure riducono la superficie di attacco e supportano i cicli di aggiornamento attraverso l'ambiente. Dalle lezioni apprese dopo NotPetya, i cambiamenti di identità e rete sono stati rafforzati.

La gestione degli accessi privilegiati rafforza il controllo su amministratori e account di servizio. Utilizza una soluzione PAM per proteggere le credenziali, ruotare le chiavi, applicare il principio del minimo privilegio su server e applicazioni e richiedere jump host con registrazione della sessione. Etichetta i privilegi dinamici con snab per mappare l'accesso a un'operazione specifica e assicurati che il presidente imponga revisioni trimestrali e il rispetto delle politiche tra i team.

Monitoraggio e governance tengono unito l'intero approccio. Centralizza i log, applica avvisi in tempo reale per tentativi anomali ed esegui audit periodici degli accessi. Stabilisci SLA per la revoca degli accessi dopo i cambi di personale e mantieni una traccia immutabile che si allinei con le milestone di ricostruzione e i requisiti normativi.

Area	Recommendation	Timing	Owner
Network segmentation	Isolare server, app e dati in zone distinte; implementare policy a livello di workload e test automatizzati; monitorare eventuali errori di configurazione	Minuti per il deployment; continuo	Responsabile del Networking
Controlli IAM	RBAC + JIT; MFA obbligatorio; nessun account condiviso; credenziali custodite con rotazione; policy cross-cloud	Settimane al lancio completo; continuo	Team IAM
Accesso privilegiato	PAM con vault di credenziali, registrazione sessioni, jump host, minimo privilegio	Immediato per i percorsi critici; graduale per gli altri	Ingegneria della Sicurezza
Monitoraggio e audit	SIEM centralizzato, rilevamento di anomalie, revisioni periodiche, decisioni tracciabili	Continuous	CSIRT / SOC

Narrativa di leadership: intuizioni del CEO, comunicazione con gli stakeholder e traiettoria di ripresa aziendale

Raccomandazione: creare una linea di crisi per i dirigenti che fornisca aggiornamenti ogni pochi minuti, con un unico responsabile per le decisioni e una pagina di stato del servizio rivolta al pubblico per ridurre l'incertezza per clienti e partner.

L'amministratore delegato ha riformulato l'incidente NotPetya come un test aziendale di resilienza contro attività dannose, non come un problema puramente IT. Parlare chiaramente dei rischi ha unito la leadership, abbreviato il ciclo decisionale e mantenuto il team concentrato sulla protezione dei clienti e dei servizi chiave. L'approccio ha inoltre riconosciuto le minacce in stile Wannacry che avevamo studiato, guidando la nostra preparazione e la nostra mentalità di risposta.

La comunicazione con gli stakeholder è diventata una pratica disciplinata: abbiamo fornito aggiornamenti sintetici e basati sui fatti al consiglio di amministrazione, al team esecutivo e ai partner chiave. Indicando a che punto eravamo, abbiamo spiegato i tempi di ripristino del servizio, le misure di controllo dei danni e come prevedevamo l'impatto sulle linee di prodotto. Immagina uno scenario in cui tali aggiornamenti non esistessero: la linea di comunicazione si offuscherebbe e la fiducia si eroderebbe. La chiara linea di comunicazione ha ridotto le speculazioni e costruito la fiducia con ogni stakeholder.

Traiettoria di ripristino: abbiamo ricostruito l'infrastruttura principale, incluso il gigantesco data center, con server aggiornati, nuova segmentazione della rete e backup rinforzati. Il lavoro è proseguito 24 ore su 24, riducendo i tempi di inattività da giorni a ore, poi a minuti nelle finestre critiche. Abbiamo scoperto che i flussi di lavoro paralleli hanno accelerato il ritorno e abbiamo aggiunto linee ridondanti e un approccio al servizio fault-tolerant, consentendo la ripresa delle release dei prodotti e la messa online dei servizi rivolti al cliente in una sequenza controllata. Questa dorsale ricostruita posiziona l'azienda per il futuro e limita i danni derivanti da focolai simili.

Lezioni e azioni: abbiamo implementato un manuale di risposta agli incidenti modulare e testato; istituito un solido programma di gestione dei rischi dei fornitori per evitare shock alla supply chain – riconoscendo come gli incidenti possono propagarsi attraverso i partner come FedEx; formato i team per gestire le minacce informatiche nel cyberspazio; e garantito che ogni leader vedesse il legame tra la resilienza IT e il valore aziendale. Abbiamo aggiunto monitoraggio, rilevamento e linee decisionali più rapide per evitare che una futura crisi si trasformi in un'interruzione più lunga. L'attenzione è rimasta su clienti, prodotti e linea di servizio, registrando progressi evidenti e miglioramento continuo, con molte misure concrete documentate per la preparazione futura.

Maersk Rebuilt Its Entire IT Infrastructure to Recover From NotPetya – A Cyber Resilience Case Study