16 января 2018

MLAD: обнаружение аномалий методами машинного обучения

Современная система АСУ ТП является кибер-физической системой, в которой присутствует IT-инфраструктура и операционные процессы (operational technologies), или OT-инфраструктура. Атаки на ОT наиболее опасны, и их очень сложно обнаружить. Технология Machine Learning for Anomaly Detection (MLAD) предназначена для защиты OT.

Особенности атак на АСУ ТП

Основным назначением АСУ ТП является обеспечение непрерывности ОТ-процессов. Сбои в ОТ могут в кратчайшее время вызвать необратимые повреждения оборудования и привести к огромным финансовым потерям. Поэтому, помимо усиленной защиты цифровой среды (IT), для АСУ ТП важно защитить их основной функционал — OT.

Атаки, направленные на IT-инфраструктуру АСУ ТП, могут вызывать необычное поведение программ, коммуникаций и даже оборудования. Некоторые атаки на цифровую среду могут иметь своей целью OT-инфраструктуру (спуфинг цифровых данных сенсоров и команд, перепрошивка цифровой логики управления, отказ в обслуживании и пр.). Атакующий также может найти уязвимость в цифровой среде кибер-физической системы и, используя ее, атаковать процессы OT.

Атаки, нацеленные на OT-инфраструктуру, могут вызывать сбои в данных сенсоров, команд управления или логики управления. Некоторые атаки на OT могут инициироваться не из цифровой среды, а быть чисто физическими (перекрытый клапан, оторванный датчик, присоединенный ложный датчик).

Атаки на OT являются наиболее опасными для промышленного объекта, при этом их обнаружение — крайне сложная задача. Наша технология MLAD — Machine Learning for Anomaly Detection — позволяет повысить качество обнаружения атак на ОТ с помощью машинного обучения. Эта технология дает возможность создать еще один важный уровень в защите кибер-физических систем и предназначена для защиты OT-процессов — вне зависимости от природы атаки.

Защита на основе анализа телеметрии

С развитием технологий число угроз для индустриальных систем в современном мире растет экспоненциально. В то же время в области защиты операционных технологий (OT) систем управления производством защита все еще строится на основе экспертных правил — фактически сигнатур. Однако обеспечить надежную защиту на основе правил не представляется возможным. Надежда на изоляцию индустриальных систем от других сетей тоже несостоятельна — чтобы производство было эффективным, необходимо взаимодействие как между объектами предприятия, так и с контрагентами, в том числе с передачей чувствительных к сбоям технологических данных.

Для защиты OT эффективно использовать машинное обучение, поскольку условия эксплуатации, входные материалы, производственные задания на производстве часто меняются, и за их изменениями машинное обучение способно угнаться. А вот перестроить экспертную систему так же быстро — трудно и дорого.

На сегодняшний день на рынке представлены продукты для киберзащиты на основе машинного обучения по данным об исполняемом коде и сетевым коммуникациям. Практически отсутствуют решения, которые бы анализировали еще и содержимое данных на прикладном уровне процессов OT.

В отличие от большинства существующих технологий, MLAD работает на уровне сигналов промышленной системы.

Особенности сигналов телеметрии АСУ ТП:

  • Огромное число сигналов телеметрии (типично порядка десятков тысяч различных тегов)
  • Высокая частота обновления тегов (типично 10 раз в секунду)
  • Большая история (может накапливаться годами)
  • Данные сильно «зашумлены» (погрешности измерений, пробелы, неравномерность прихода, выбросы различной природы и т.д.)
  • Различные сигналы взаимосвязаны (логикой и физическими законами)

Последний пункт является ключевым для предлагаемого нами подхода. Сигналы (значения сенсоров, команд, параметров логики управления) тесно взаимосвязаны, и эта связь определяется физикой и логикой технологических процессов.

Таких связей сигналов на большом промышленном объекте огромное количество. Даже опытный технолог может не знать некоторые из таких взаимосвязей. Они закладывались при проектировании логики контроля АСУ ТП, определяются условиями эксплуатации, параметрами подаваемой на вход продукции и др. факторами.

Наличие таких взаимосвязей сигналов приводит к тому, что атака на какую-либо часть сигналов или на компоненты АСУ ТП неизбежно влияет на другие технологические сигналы. Машинное обучение может эти корреляции «выучить» и такое изменение обнаружить.

MLAD собирает и анализирует значения сенсоров, актуаторов, уставок. MLAD обнаруживает отклонения технологическими процессов от их нормального поведения. При этом не важно, кто и каким способом внес изменения в процесс, не важно, сделано ли это намеренно или случайно. Возможна даже ситуация, когда на сетевом уровне не проявляется никаких действий атакующего, но MLAD видит проявления атаки на уровне технологических процессов и визуализирует это отклонение в терминах телеметрии, понятной оператору.

MLAD — детектор аномалий

Используя корреляции в сигналах технологического трафика, MLAD позволяет обучить рекуррентную нейронную сеть распознавать поведение сигналов при нормальных условиях работы. В основе алгоритма работы MLAD лежит рекуррентная нейронная сеть LSTM (Long-Short Term Memory). Данные представляют собой многомерные временные ряды.

После обучения MLAD в режиме реального времени предсказывает для всех сигналов значения для некоторого интервала времени в будущем и сравнивает их с наблюдаемыми значениями. Если величина ошибки предсказания больше, чем статистически определенный на этапе обучения порог, MLAD детектирует аномалию и отправляет предупреждающее событие.

Примерами аномалии могут быть: изменения амплитуды какого-то сигнала, периода, фазы синхронизации между разными сигналами.

MLAD способен детектировать аномалии связанные с:

  • Подменой значений сенсоров и команд
  • Изменением логики управления (уставки, параметры ПЛК)
  • Физическими атаками на оборудование
  • Выходом из строя оборудования,
  • Изменением условий внешней среды
  • Необычными входными параметрами материалов и процессов.

Первые три пункта могут быть связаны с атаками на объект, и MLAD выступает в этом случае детектором атак.

При детектировании аномалий по последним пунктам, MLAD используется в значительной степени как инструмент предикативного мониторинга.

Сейчас много говорят об интерпретируемости результатов работы алгоритмов машинного обучения, однако немногие решения могут предоставить интерпретацию. Технология MLAD позволяет не только выявить, но и интерпретировать аномалию — предоставить информацию о том, что именно пошло не так. MLAD локализует сигнал, в поведении которого произошло наибольшее расхождение с нормальным поведением. Особое внимание уделяется раннему обнаружению аномалии: значимое расхождение, как правило, обнаруживается гораздо раньше, чем происходит срабатывание противоаварийной защиты (ПАЗ).

Пример работы MLAD

Технология MLAD является пилотной реализацией и доступна заказчикам Kaspersky Industrial Cybersecurity, заинтересованным в этом функционале, по запросу в тестовом режиме.

Модуль MLAD обеспечивает:

  • Надежное обнаружение и локализацию аномалий
  • Обработку тысяч различных сигналов в секунду
  • Хранение и визуализацию истории за несколько лет
  • Онлайн визуализацию десятков сигналов
  • Дообучение при изменении нормальных условий
  • Поддержку вычислений на GPU

Пилотная версия MLAD интегрирована с решением «Лаборатории Касперского» для безопасности индустриальных сетей Kaspersky Industrial Cyber-Security for Networks. Kaspersky Industrial Cyber-Security for Networks осуществляет детальный анализ индустриальных протоколов Deep Packet Inspection (DPI) и передает распознанные значения технологических сигналов MLAD.

Примеры работы MLAD могут быть продемонстрированы на хорошо известной модели химического процесса Tennessee Eastman Process (TEP).

Процесс Tennessee Eastman

В 90-е годы инженеры, которые работали на предприятии Tennessee Eastman, выложили в интернет детальную математическую модель химического индустриального процесса. Сделано это было скорее для отработки различных моделей управления индустриальным процессом (логика PLC и т.д.).

Модель Tennessee Eastman Process (TEP) включает четыре основных агрегата. В реакторе экзотермически взаимодействуют газы. Продукты реакции поступают в конденсатор, потом в сепаратор, где отделяется пар от жидкости. Жидкость поступает в стриппер (отпарная колонна), где разделяются фракции. На выходе — два продукта.

Это химическое производство, но подобные агрегаты типичны для многих производств. И, отрабатывая аномалии в TEP, мы наблюдаем много общего и с другими производствами.

Стенд

На основе модели TEP мы реализовали на языке Python математическую модель для симуляции физических процессов, а в виде программы для ПЛК реализовали логику для управления физической моделью. Для отображения симулируемых процессов мы реализовали 3D-модель TEP и связали ее с генерируемой физической моделью и ПЛК телеметрией. Для управления стендом мы реализовали специализированную консоль на iPad, которая позволяет симулировать множество сценариев кибератак, равно как и произвести всестороннее тестирование алгоритмов MLAD.

Стенд разворачивается на одном ноутбуке — на нем работает математическая модель Tennessee Eastman Process, ее 3-D визуализация, Kaspersky Industrial Cyber-Security и MLAD. В качестве ПЛК используется контроллер Schneider. С помощью свитча трафик между ПЛК и матмоделью зеркалируется на Kaspersky Industrial Cyber-Security. Kaspersky Industrial Cyber-Security взаимодействует с MLAD.

У модели есть много параметров, которые мы можем контролировать, — и сенсоры, и команды, порядка 60 тегов. Также заданы бизнес-параметры, которые позволяют посчитать стоимость работы предприятия (ежечасно). Это помогает оценить комплексный ущерб от хакерской атаки: предприятие может понести финансовые потери, даже если атака не приводит к самым страшным последствиям (взрыву/катастрофе).

На видео ниже на нашем стенде реализован простой сценарий спуфинг-атаки (подмена данных). Есть три газа. Сенсоры показывают, сколько газа идет в реактор. По сценарию производится подмена значения одного тега, соответствующего показаниям сенсора подачи газа A, и контроллер получает информацию, что газ вообще не идет. В результате контроллер открывает заглушку, увеличивая подачу газа. В результате действий контроллера с неверными показаниями датчика клапан оказывается полностью открыт. Через три часа после начала атаки давление в реакторе превышает пороговое.

По сценарию система противоаварийной защиты (ПАЗ) по каким-то причинам выключена. Если бы ПАЗ был включен, то он только на этом этапе выключил бы подачу газа — это время ESD (Emergency Shut Down).

При этом на мониторе MLAD видно, что показатели начали расти и пересекли порог (MLAD обнаружил аномалию и отправил предупреждение) очень рано. Повремени симуляции, разница между временем обнаружения аномалии с помощью MLAD и срабатыванием ПАЗ — 3 часа 8 минут. Этого достаточно, чтобы оператор принял необходимые меры и предотвратил аварию. Такое быстрое обнаружение аномалий позволяет нам говорить про раннее обнаружение.

Когда MLAD обнаруживает аномалию, на мониторе предоставляется детальная информация по тем сигналам, где ошибка самая большая. Предоставляемая информация позволяет оператору понять, что и где не так в системе. Это позволяет говорить про интерпретацию аномалий.

Заключение

Подходы к защите АСУ ТП на основе анализа аномалий в данных стали развиваться с распространением технологий машинного обучения. Текущий уровень развития этих технологий позволяет строить защиту операционных процессов индустриальных систем на основе анализа телеметрии.

Алгоритмы машинного обучения способны охватить гораздо более широкий круг связей между индустриальными сигналами, чем это может сделать традиционная экспертная система защиты, основанная на правилах. Обычной является ситуация, когда правила экспертной системы достаточно обобщены (загрублены), чтобы подходить под разные условия. Это приводит к замедлению срабатывания ПАЗ (противоаварийной защиты). Более тонко настроенная система на основе машинного обучения способна раньше реагировать на аномальные изменения в процессах.

При использовании машинного обучения по телеметрии в нормальных условиях работы индустриального объекта фактически можно построить аналог белых списков для программ — только результатом становится ML-модель, способная определять «белое» поведение индустриальных процессов.

Подходы с использованием машинного обучения не исключают, а дополняют экспертные системы — так же, как это происходит в мире защитных решений, где наряду с эвристическим анализом, машинным обучением и белыми списками программ по-прежнему используются сигнатурные методы обнаружения.

Полезная информация:

  1. RNN-based Early Cyber-Attack Detection for the Tennessee Eastman Process. ICML 2017 Time Series Workshop, Sydney, Australia, 2017.
  2. Multivariate Industrial Time Series with Cyber-Attack Simulation: Fault Detection Using an LSTM-based Predictive Data Model. NIPS 2016 Time Series Workshop, Barcelona, Spain, 2016.
  3. ICS Anomaly Detection Panel

По любым возникшим вопросам вы можете связаться с нами по адресу mlad[a]kaspersky.com

Авторы
  • Руководитель отдела развития технологий, Управление перспективных технологий