Атаки на уязвимые компьютерные сети и кибер-инфраструктуру, часто называемые атаками нулевого дня, могут быстро пересилить традиционные средства защиты, что приведет к ущербу в миллиарды долларов и потребует недель ручной работы по исправлению, чтобы укрепить системы после вторжения.
Группа исследователей под руководством Пенсильванского университета использовала подход машинного обучения, основанный на методе, известном как обучение с подкреплением, для создания адаптивной киберзащиты от этих атак.
По словам Минхуэй Чжу, доцента электротехники и информатики и соавтора Института вычислений и данных, команда разработала адаптивный метод, основанный на машинном обучении, для устранения текущих ограничений в методе обнаружения кибератак и реагирования на них - так называемая защита движущейся цели, или МПД.
«Адаптивные методы ручной защиты целей могут динамически и проактивно реконфигурировать развернутые средства защиты, что может увеличить неопределенность и сложность для злоумышленников во время поисков уязвимости», - сказал Чжу. «Однако существующие методы МПД страдают двумя ограничениями. Во-первых, выбор вручную может занять очень много времени. Во-вторых, выбранными вручную конфигурациями не обеспечивается должная информационная безопасность, к тому же это не самый рентабельный метод решения проблемы».
По словам исследователей, опубликовавших свои выводы в ACM Transactions on Privacy and Security, типичные ответы на атаку могут занять до 15 дней, что может потребовать значительных средств и ресурсов для организации.
Чжу сказал, что атаки нулевого дня являются одной из самых опасных угроз для компьютерных систем и могут нанести серьезный и долговременный ущерб. Например, атака программы-вымогателя WannaCry, произошедшая в мае 2017 года, была нацелена на более чем 200 000 компьютеров на базе Windows в 150 странах и нанесла ущерб на сумму от 4-8 миллиардов долларов.
Подход команды основан на обучении с подкреплением, которое, наряду с обучением с учителем и без учителя, является одной из трех основных парадигм машинного обучения. По мнению исследователей, обучение с подкреплением - это способ, с помощью которого лицо, принимающее решения, может научиться делать правильный выбор, выбирая действия, которые могут оказаться максимально действенными.
«Лицо, принимающее решения, изучает оптимальную политику или действия через непрерывное взаимодействие с основной средой, которая частично неизвестна», - сказал Лю. «Таким образом, обучение с подкреплением особенно хорошо подходит для защиты от атак нулевого дня, когда критическая информация - цели атак и расположение уязвимостей - недоступна».
Исследователи протестировали свой алгоритм обучения с подкреплением в сети из 10 машин. Они добавили, что, хотя сеть из 10 компьютеров может показаться не очень большой, на самом деле она более чем достаточно устойчива для теста. Установка также включала веб-сервер и почтовый сервер, сервер шлюза, сервер SQL, сервер DNS и сервер администратора. Был установлен брандмауэр для предотвращения доступа к внутренним хостам. Исследователи также выбрали уязвимости, которые могут привести к множеству сценариев атаки для теста.
Исследователи добавили, что их подход требует дальнейшего совершенствования. Например, используемый алгоритм основан на обучении с подкреплением без модели и требует большого количества данных или большого количества итераций для изучения относительно хорошей политики защиты. В будущем они хотели бы внедрить подходы на основе моделей для ускорения процесса обучения.