Maersk: восстановление IT-инфраструктуры и повышение киберустойчивости после NotPetya

Maersk перестроила всю свою ИТ-инфраструктуру, чтобы оправиться от NotPetya: пример киберустойчивости

Создайте единый план восстановления сейчас, чтобы пережить кибершок. Вашей организации пойдет на пользу отказоустойчивая ИТ-инфраструктура, четкое распределение ответственности и план, охватывающий персонал, процессы и технологии, чтобы восстановить быстро, когда происходит взлом.

В августе 2017 года Maersk столкнулась с NotPetya, что привело к отключению ее глобальных IT-сетей и систем отгрузки. С этого момента командам пришлось восстанавливать тысячи серверов, перестраивать потоки данных и возобновлять операции с минимальным временем простоя. Согласно публичным оценкам, прямые убытки составили около 300 миллионов долларов США, а затраты на восстановление были того же порядка, поскольку они восстанавливали все с нуля, что когда-то казалось невозможной задачей.

Перестройка началась с чистого листа: облачная архитектура, стандартизированные технологические стеки и автоматизация для ускорения восстановления. Они заменили хрупкие, индивидуальные инструменты на модульные компоненты, которые можно использовать в разных регионах. В рамках этой работы была принята среда medoc для согласования безопасности и операций, что позволило сократить время восстановления критически важных сервисов и заложить основу для масштабируемой, конкурентоспособной ИТ-платформы, способной выдерживать будущие потрясения. Этот проект помогает преодолевать будущие сбои и поддерживать работу бизнес-направлений в режиме онлайн.

В тех местах, где их технологии пересекаются с операциями, Maersk создала культуру, ориентированную на безопасность, и дисциплинированное реагирование на инциденты. Они согласовали действия поставщиков, внутренних команд и партнеров по всей цепочке поставок, обеспечивая непрерывность для клиентов и отправлений. Их экосистема включала координацию с партнерами по курьерской доставке и с FedEx, чтобы поддерживать движение потока, даже когда части сети были отключены.

Обычно восстановление зависит от людей, процессов и партнеров. Вашей команде следует сосредоточиться на картировании критически важных систем, проверке резервных копий и проведении ежеквартальных учений по восстановлению. Следите за тем, куда уходят ресурсы, и убедитесь, что ваш бюджет соответствует снижению рисков. Также привлекайте своих поставщиков и логистических партнеров для укрепления сквозной цепочки, потому что устойчивость сохраняется там, где технологии, люди и партнеры работают вместе.

Влияние NotPetya и этапы устранения последствий

Немедленные действия: в течение нескольких минут изолируйте затронутые сегменты, переключитесь на чистые резервные копии и начните поэтапное восстановление со строгим контролем и ежедневным созвоном для отчета о ходе работ. Это позволит обеспечить непрерывность работы не затронутых систем, пока вы сосредоточены на локализации проблемы и четком плане восстановления.

Через несколько минут после обнаружения: локализовать и пресечь боковое перемещение; отключить несущественные службы, заблокировать рискованный удаленный доступ, отозвать скомпрометированные учетные данные и сделать моментальные снимки критически важных ресурсов, чтобы предотвратить утечку данных, используемых в судоходных операциях.
Июль 2017 г. – тревожный звонок для гигантской фирмы: сделать кибербезопасность одним из главных приоритетов на государственном уровне; объединить кросс-функциональные команды по ключевым направлениям; сопоставить фрагменты данных для выявления схем атак и пробелов; выпустить первый обновленный план реагирования на инциденты и держать руководство в курсе с помощью коротких информационных звонков.
Оценка и план: инвентаризация активов, используемых в сфере перевозок; классификация по критичности; проектирование перестроенной опорной сети с нуля с сегментированными сетями и безопасной по умолчанию базовой конфигурацией; подготовка путей миграции, минимизирующих воздействие на клиентов.
Проектирование и перестройка: перестроена основная ИТ-инфраструктура с модульной, отказоустойчивой архитектурой; разработанные средства контроля подчеркивают принцип наименьших привилегий, многофакторную аутентификацию для доступа, строгий график установки патчей и расширенный мониторинг; кибербезопасность становится общеотраслевым приоритетом, который также определяет управление рисками поставщиков.
Миграция и тестирование: выполняйте параллельные миграции во избежание простоев; проверяйте целостность данных в течение нескольких минут после каждого переключения; завершайте комплексное тестирование в перестроенной среде в течение двух недель и поддерживайте четкие отчеты заинтересованным сторонам.
Оперативное усиление защиты: развернуть центр управления безопасностью, обновить служебные инструкции, регулярно проводить учения и поддерживать согласованность с партнерами; снизить риски в критически важных областях, заменить или изолировать популярные инструменты, которые не соответствуют требованиям контроля, и поддерживать общую архитектуру в чистоте от устаревших зависимостей.
Результаты и выводы: компания добилась улучшения среднего времени восстановления (MTTR) и повышения прозрачности процесса; атака NotPetya послужила для отрасли тревожным сигналом о необходимости инвестировать в обеспечение кибербезопасности и устойчивую архитектуру; восстановленная платформа поддерживает судоходные операции с большей надежностью и четким пониманием состояния управления рисками.

Хронология атаки NotPetya, продолжительность сбоя и экстренные меры по локализации

Изолируйте затронутые сети в течение первого часа и переключитесь на автономные резервные копии для быстрого восстановления, одновременно документируя четкий план сдерживания для всех площадок.

Вспышка NotPetya началась в конце июня 2017 года в украинских сетях, и ее источник был найден в скомпрометированном обновлении M.E.Doc. Оттуда инфекция распространилась по всему миру, проникая в другие сети посредством червеобразной репликации и уязвимости Windows, которая позволяла ей перемещаться по организациям. В maersk, операторе Maersk Line, прекратились судоходные и логистические операции, поскольку вышли из строя контроллеры домена, файловые ресурсы и ERP-сервисы. В течение нескольких часов офисы от Азии до Европы и Америки потеряли доступ к критически важным системам, подчеркнув, как одна слабая точка в цепочке поставок в украинской экосистеме M.E.Doc может повлиять на многие направления бизнеса и создать огромные сбои в отрасли.

Продолжительность сбоя варьировалась в зависимости от площадки. Основные ИТ-сервисы не работали около 10 дней во многих подразделениях, а отгрузка возобновлялась постепенно в течение следующих двух недель. К началу июля заработала электронная почта и основные приложения, а к середине июля большинство бэк-офисных процессов в той или иной степени восстановились. Скорость зависела от резервных копий, сегментации сети и того, насколько быстро команды смогли переключиться на автономные процессы для бронирования, составления манифестов и передачи судов. Ситуация показывает, как проблемы выше по потоку могут повлиять на многие функции и отразиться на операциях по всему миру.

Экстренное сдерживание и восстановление осуществлялись по четкому сценарию. Председатель призвал к быстрым, трансграничным действиям, и команды выполнили шаги по блокированию бокового перемещения, прекращению внешнего доступа и использованию автономных резервных копий для критически важных задач. Maersk восстановила свою ИТ-инфраструктуру с нуля, с усиленной, сегментированной линией защиты и обновленными сценариями реагирования на инциденты для снижения будущего риска. Вспышка высветила риск, связанный со сторонним программным обеспечением, таким как medoc, и побудила snabes и отраслевых коллег принять меры по повышению устойчивости, усилению кибер-гигиены и устранению пробелов в своей деятельности для получения конкурентных преимуществ. Многие отметили, что после инцидента их сети доставки восстановились быстрее, и отрасль достигла более прочной основы для экстренного сдерживания и восстановления.

Перестройка ИТ-инфраструктуры: капитальный ремонт архитектуры и усиление безопасности

Начните с конкретных действий: замените устаревшие серверы, установите современные, масштабируемые образы и разверните многоуровневую систему безопасности. Назначьте председателя для управления, проведите контролируемый пилотный проект и убедитесь, что план сокращает время простоя до минут, а не часов. Такой подход дает четкий результат и позволяет сосредоточиться на устойчивости. Ваша задача — снизить риски и обеспечить непрерывное обслуживание во всей организации.

Провести инвентаризацию всех серверов, вычислительных узлов, хранилищ и сетевых устройств; составить карту критически важных рабочих процессов; определить линии зависимостей и единые точки отказа.
Документируйте потоки данных между локальными и облачными ресурсами; отслеживайте цепочку зависимостей, чтобы избежать слепых зон.
Приоритизируйте системы по риску: сначала приложения, ориентированные на клиентов, затем внутренние инструменты; установите целевой показатель дней миграции на кластер и отслеживайте прогресс с помощью привязанных ко времени этапов.
Определить председателя совета управления и проводить еженедельные созвоны для рассмотрения прогресса и корректировки масштаба при необходимости.
Разработайте план с возможностью отката, чтобы избежать сбоев без ущерба для непрерывности бизнеса.

Сегментируйте сети, чтобы ограничить горизонтальное перемещение и обеспечить соблюдение принципа наименьших привилегий в политике.
Замените монолитные сервисы на разделенные, контейнеризированные задачи; стандартизируйте образы и базовые конфигурации; выведите из эксплуатации старые серверы.
Укрепите идентификацию с помощью SSO, MFA и управления привилегированным доступом; интегрируйте с существующими службами каталогов.
Внедрить централизованный стек для ведения журналов и мониторинга; обеспечить прием, индексацию и возможность поиска данных для ускорения анализа первопричин.
Запланировать переустановку критически важных сервисов в чистой среде для устранения отклонений; применить обновленные базовые показатели и безопасно вывести из эксплуатации устаревшие компоненты.

Внедрите фиксированный график управления исправлениями: ежемесячное сканирование, экстренные исправления в течение 24–48 часов для критических уязвимостей; проверяйте успешность с помощью автоматизированных проверок.
Применять конфигурационные шаблоны (CIS STIG или эквиваленты от поставщиков); отключать неиспользуемые функции; обеспечить принудительное ведение аудита.
Разверните EDR на конечных точках, IDS/IPS на границах сети и микросегментированные правила межсетевого экрана для минимизации уязвимости.
Централизуйте логи, внедрите SIEM и установите пороговые значения для оповещений, чтобы снизить количество ложных срабатываний; регулярно проводите проверку оповещений с использованием инструкций по эксплуатации.
Усилить резервное копирование: зашифрованные, вынесенные за пределы площадки копии и проверенное восстановление; проводить ежеквартальные учения по аварийному восстановлению и проверять RPO.

Дни 0–14: обнаружение, инвентаризация, реестр рисков, целевая архитектура и завершение плана миграции; организация еженедельных совещаний по управлению со своими заинтересованными сторонами.
Дни 15–30: переустановка основных серверов и образов ОС; базовые конфигурации; начало сегментации сети и принудительное применение идентификации; подтверждение валидности резервных копий.
Дни 31–60: перенос рабочих нагрузок на новые образы; развертывание MFA, PAM и политик нулевого доверия; обновление конвейеров CI/CD; проведение пилотных переключений с минимальным временем простоя.
Дни 61–90: подтвердить усиление защиты, провести учения по аварийному восстановлению, настольные упражнения; завершить составление инструкций и передать в эксплуатацию; измерить улучшения MTTR и времени безотказной работы.

Метрики и результаты: время обнаружения и реагирования на критические события – менее 15 минут; среднее время восстановления (MTTR) для основных сервисов – менее двух часов; время безотказной работы – выше 99,9% в течение первых 90 дней новой магистральной сети. Восстановление из резервных копий в течение одного часа во время тренировок; ежеквартатная проверка DR подтверждает готовность. Количество инцидентов, вызванных расхождением конфигураций и ошибками, значительно снижается, и сигнал к пробуждению доказывает, что многие компании могут преодолеть унаследованные недостатки с помощью дисциплинированной автоматизации. Время переустановки серверов значительно улучшается, и опыт показывает, что добавленная автоматизация, протестированные инструкции и четкие линии ответственности обеспечивают надежную работу сервисов даже в условиях стресса.

Этот внезапный подъем заставляет их компании осознать, что без автоматизации и четкого распределения ответственности ручное обслуживание становится узким местом. Добавленное управление и отработанные тренировки дают их командам то, что им нужно: надежный, воспроизводимый процесс перехода от проблемы к решению за считанные дни, а не просто время. Ваше внимание сосредоточено на том, что действительно важно – качестве обслуживания, быстром восстановлении и постоянном совершенствовании, – в то время как архитектура поддерживает это скоростью и надежностью.

Защита данных: резервное копирование, тесты восстановления и проверки целостности данных

Внедрите неизменяемые резервные копии и ежемесячно проводите тесты восстановления для проверки быстрого восстановления после инцидентов, таких как NotPetya. Для Maersk такой подход сократил ущерб и уменьшил время простоя. Храните копии в автономном режиме и в отдельном сегменте сети, чтобы ограничить воздействие во время кибератаки.

Подробные процедуры резервного копирования обеспечивают защиту данных во многих системах. Используйте версионные снимки, автономные хранилища и автоматизированные проверки целостности. Ручные учения по восстановлению должны подтвердить, что шаги по переустановке в чистой среде восстанавливают все сервисы.

Проверки целостности данных сопоставляют восстановленные данные с исходными, используя контрольные суммы, побитовое сравнение и сквозную проверку. В случае обнаружения расхождений группы устраняют пробелы в репликации данных или защите от программ-вымогателей до того, как это затронет клиентов.

Отрабатывайте полные восстановления во всей сети доставки: баз данных, хранилищ файлов и отгрузочных документов, таких как курьерские манифесты. Такая практика обеспечивает непрерывность обслуживания даже при сбоях на удаленных площадках.

Установите частоту для автоматизированного резервного копирования плюс еженедельные ручные проверки. Звонок-напоминание от NotPetya остается напоминанием о том, что технологический выбор, процессы и управление должны быть согласованы для защиты критически важных данных.

Maersk обнаружила, что одних только резервных копий недостаточно для обеспечения устойчивости; важна оперативность восстановления. Проводите сценарные тесты Wannacry, чтобы убедиться, что сеть, конечные точки и облачный уровень восстанавливаются без потери данных.

Председатель говорит, что будущее защиты данных зависит от проактивного тестирования и четкого определения ответственных. Войдите в цикл, где команды проверяют резервные копии, восстановления и проверки целостности перед любым событием в реальном времени.

Со временем усилия ИТ-отдела, отделов доставки и обслуживания позволили создать более взаимосвязанный уровень защиты. Обнаружили, что многие меры предосторожности теперь работают вместе, чтобы предотвратить повреждения и ускорить переустановку при необходимости.

Сеть и идентификация: сегментация, элементы управления IAM и привилегированный доступ

Немедленно внедрите строгую сегментацию сети для сдерживания утечек без ручного сдерживания. Разделите серверы, приложения и хранилища данных на отдельные зоны и применяйте политики на каждой границе рабочей нагрузки. Добавьте микросегментацию, обеспечьте соблюдение правил, управляемых идентификацией, и отслеживайте трафик East-West через брандмауэры и средства контроля на основе хостов. Например, для møller-maersk перестроенная ИТ-сеть сгруппировала основные сервисы, бизнес-приложения и внешние интерфейсы в три зоны и автоматически протестировала сегментацию, проверяя изоляцию в течение нескольких минут.

Средства управления IAM уделяют первостепенное внимание принципу наименьших привилегий и быстрому контролируемому доступу. Разверните RBAC и JIT-привилегированный доступ, требуйте многофакторную аутентификацию (MFA) для всех сеансов администрирования, отключите общие учетные записи и хранилище учетных данных с автоматическим ротированием. Применяйте политику единообразно для локальных и облачных рабочих нагрузок, чтобы каждое привилегированное действие подлежало аудиту. Эти меры уменьшают поверхность атак и поддерживают циклы обновления среды. На основе уроков, извлеченных после NotPetya, были ужесточены изменения в идентификации и сети.

Управление привилегированным доступом усиливает контроль над администраторами и служебными учетными записями. Используйте решение PAM для хранения учетных данных, ротации ключей, обеспечения минимальных привилегий на серверах и в приложениях, а также для использования jump-хостов с записью сессий. Помечайте динамические привилегии снэбами, чтобы сопоставлять доступ с конкретной операцией, и убедитесь, что председатель обеспечивает ежеквартальные проверки и соблюдение политик во всех командах.

Мониторинг и управление связывают весь подход воедино. Централизуйте журналы, настройте оповещения в режиме реального времени о необычных попытках и проводите периодические проверки доступа. Установите соглашения об уровне обслуживания (SLA) для отзыва доступа после кадровых изменений и ведите неизменяемый журнал, который соответствует этапам перестройки и нормативным требованиям.

Area	Рекомендация	Тайминг	Owner
Сетевая сегментация	Изолируйте серверы, приложения и данные в отдельных зонах; развертывайте политики на уровне рабочих нагрузок и автоматизированные тесты; отслеживайте наличие неправильных конфигураций.	Минуты на развертывание; в процессе	Руководитель отдела сетевых технологий
IAM controls	RBAC + JIT; требуется MFA; никаких общих учетных записей; учетные данные хранятся в хранилище с ротацией; межоблачная политика	Недели до полного развертывания; непрерывный	IAM Team
Привилегированный доступ.	PAM с хранилищем учетных данных, записью сессий, jump-хостами, принципом наименьших привилегий	Немедленно для критических путей; поэтапно для остальных	Инженерия безопасности
Мониторинг и аудит	Централизованная SIEM, обнаружение аномалий, периодические проверки, отслеживаемые решения	Непрерывный	CSIRT / SOC

Лидерский нарратив: инсайты CEO, коммуникация с заинтересованными сторонами и траектория восстановления бизнеса

Рекомендация: Создайте экстренную линию для руководства, предоставляющую обновления каждые несколько минут, с одним ответственным за принятие решений и общедоступной страницей статуса сервиса, чтобы снизить неопределенность для клиентов и партнеров.

Генеральный директор переосмыслил инцидент с NotPetya как проверку устойчивости бизнеса к злонамеренным действиям, а не как чисто ИТ-проблему. Открыто говоря о рисках, генеральный директор объединил руководство, сократил цикл принятия решений и сосредоточил внимание команды на защите клиентов и ключевых сервисов. Такой подход также учитывал угрозы типа Wannacry, которые мы изучали, направляя нашу подготовку и определяя наше отношение к реагированию.

Коммуникация с заинтересованными сторонами стала дисциплинированной практикой: мы выпускали краткие, фактические отчеты для совета директоров, исполнительной команды и ключевых партнеров. Отмечая наше текущее положение, мы объясняли сроки восстановления обслуживания, меры по контролю ущерба и то, как мы предполагаем воздействие на линейки продуктов. Представьте себе сценарий, в котором таких отчетов не было бы – линия коммуникации размылась бы, и доверие было бы подорвано. Четкая линия коммуникации уменьшила спекуляции и укрепила доверие со всеми заинтересованными сторонами.

Траектория восстановления: мы перестроили основную инфраструктуру, включая гигантский центр обработки данных, с обновленными серверами, новой сегментацией сети и усиленным резервным копированием. Работа велась круглосуточно, сокращая время простоя с дней до часов, затем до минут в критических периодах. Мы обнаружили, что параллельные потоки работ ускорили восстановление, и добавили резервные линии и отказоустойчивый подход к обслуживанию, что позволило возобновить выпуск продуктов и поэтапно ввести в строй сервисы, ориентированные на клиентов. Этот восстановленный магистральный канал обеспечивает компании возможности для будущего и ограничивает ущерб от подобных инцидентов.

Уроки и действия: мы внедрили модульный, протестированный план реагирования на инциденты; создали надежную программу управления рисками поставщиков, чтобы избежать потрясений в цепочке поставок, понимая, как инциденты могут распространяться среди партнеров, таких как FedEx; обучили команды управлению киберугрозами в киберпространстве; и убедились, что каждый руководитель видит связь между устойчивостью ИТ и ценностью для бизнеса. Мы добавили мониторинг, обнаружение и ускорили принятие решений, чтобы предотвратить превращение будущего кризиса в более длительный сбой. В центре внимания оставались клиенты, продукты и линейка услуг, отмечая явный прогресс и постоянное улучшение, при этом многие конкретные шаги были задокументированы для будущей готовности.

Maersk Rebuilt Its Entire IT Infrastructure to Recover From NotPetya – A Cyber Resilience Case Study