kdd cup 99 что это

Исследование нейросетевых технологий для выявления инцидентов информационной безопасности

Рубрика: Информационные технологии

Дата публикации: 03.12.2015 2015-12-03

Статья просмотрена: 2240 раз

Библиографическое описание:

Марков, Р. А. Исследование нейросетевых технологий для выявления инцидентов информационной безопасности / Р. А. Марков, В. В. Бухтояров, А. М. Попов, Н. А. Бухтоярова. — Текст : непосредственный // Молодой ученый. — 2015. — № 23 (103). — С. 55-60. — URL: https://moluch.ru/archive/103/23866/ (дата обращения: 14.12.2021).

Today, intrusion detection systems (IDS) are typically software or hardware and software solutions that automate the process of monitoring events occurring in a computer system or network. As the number of different sources of unauthorized entries into the wrong computer networks in recent years has increased significantly, as a result of increased and the load on the IDS. The number of stations to monitor has increased, what was the reason for expansion of the database, the analysis of which included in the scope of operation of the subsystems IDS. In this connection, the task was to reduce the load or optimized the operation of the subsystem analysis, the effectiveness of which is the result of the work of the IDS. In the analysis phase takes place detection of deviations of parameters monitoring anomalies in the analyzed parameters, but one of the most important performance indicator subsystem analysis is to identify information security incidents. In order to achieve an increase in performance to identify incidents need to optimize the processing of the resulting amount of data acquisition subsystem of the data, which also is part of the IDS. The paper is devoted to finding and reasoning methods to improve the detection rate of information security incidents within the existing intrusion detection systems (IDS). To improve the performance of intrusion detection systems we suggest to use pre-processing of the received monitoring data and to include it in an intrusion detection process as an obligatory step.The problem of detection of incidents can be represented as the problem of classification using an array of monitoring data. One of the tools for solving this problem are artificial neural networks. In this paper we analyzed the types and principles of IDS, intrusion detection methods, the problem of classification, basic principles of neural networks. Based on the analysis an experimental study was carried out. The comparative effectiveness of information security incidents identification using the described approach and alternative approaches was analyzed.

Keywords: intrusion detection systems, information security, neural networks, classification of network attacks.

Введение. Системы обнаружения сетевых вторжений (СОВ) и выявления признаков компьютерных атак на информационные системы уже давно применяются как один из необходимых рубежей обороны информационных систем. В настоящее время системы обнаружения вторжений обычно представляют собой программные или аппаратно-программные решения, которые автоматизируют процесс контроля событий, протекающих в компьютерной системе или сети, а также самостоятельно анализируют эти события в поисках признаков проблем безопасности. Поскольку количество различных источников несанкционированных проникновений компьютерные сети за последние годы значительно увеличилось, как следствие возросла и нагрузка на СОВ. Увеличилось количество участков для наблюдения, что и стало причиной расширения базы данных, анализ которой входит в задачи подсистем функционирования СОВ, в связи с этим более актуальной становится задача по снижению нагрузки функционирования подсистемы анализа, эффективность работы которой, что определяет эффективность работы СОВ.

На этапе анализа происходит выявление отклонений, аномалий параметров, для которых осуществляется мониторинг. Так же на этапе анализа происходит оценка основного показателя эффективности подсистемы анализа — показателя надежности выявления инцидентов информационной безопасности. Для того, что бы достичь увеличения показателей эффективности выявления инцидентов необходимо сократить объем получаемых данных от подсистемы сбора информации, которая так же входит в структуру СОВ. Так как чрезмерный объем поступающей «сырой» информации приводит к снижению эффективности работы системы из-за значительно возрастающего времени на обработку, возрастающих требований к вычислительным мощностям соответствующего оборудования.

Один из методов обработки информации с последующим обобщением — это искусственные нейронные сети (ИНС). ИНС позволяют достичь хороших результатов в решении таких сложных инженерных задач как распознавание образов, классификация, прогнозирование [1]. В связи со способностью искусственных нейронных сетей в процессе обучения выявлять сложные зависимости [2] между входными и выходными данными, которые отсутствовали в явном виде, являются привлекательным инструментом для решения задач защиты компьютерной информации. Таким образом, повышение эффективности выявления инцидентов информационной безопасности с помощью ИНС совместно со статистическими методами анализа данных, в рамках функционирования одной системы, является актуальной научно-технической задачей.

&nbspМетоды обнаружения инцидентов. Задача обнаружения инцидентов информационной безопасности сводится к задаче классификации на предоставляемом массиве данных. Поэтому основным критерием для выбора метода обнаружения является его способность решить задачу классификации. Выделяют следующие методы обнаружения атак на ИС: анализ систем состояний, графы сценариев атак, экспертные системы, методы, основанные на спецификациях, сигнатурные методы, нейронные сети, иммунные сети, статистический анализ, кластерный анализ, поведенческая биометрия. В рамках представленного в статье исследования в качестве базовой технологии анализа данных для СОВ применялись ИНС.

Подобный сценарий подходит и к реализации обнаружения сетевых атак, т. к. он связан с выделением большого числа признаков, по которым можно проводить классификацию. Так, например, в общедоступной базе KDD Cup ‘99 [3], содержащей примерно 5 миллионов классифицированных по 22 типам экземпляров атак (классов), используется 41 признак. При этом атаки делятся на 4 основные категории: DoS, U2R, R2L и Probe. Все признаки информативно неравнозначны, причем уточнить их истинную значимость можно только после проведения дополнительных исследований. Задача выявления существенно значимых признаков является неотъемлемой частью процесса распознавания.

Для решения задачи удалённой сетевой атакой будем называть информационное разрушающее воздействие на распределённую компьютерную сеть, осуществляемое программно по доступным каналам связи [4]. Конкретные разновидности сетевых атак представлены в базе данных (БД) KDD Cup ‘99. В качестве обучающего множества выступает база KDD-99.

DoS атаки — это сетевые атаки, направленные на возникновение ситуации, когда на атакуемой системе происходит отказ в обслуживании. Данные атаки характеризуются генерацией большого объема трафика, что приводит к перегрузке и блокированию сервера. ВыделяютшестьDoSатак: back, land, neptune, pod, smurf, teardrop [4].

U2R атаки предполагают получение зарегистрированным пользователем привилегий локального суперпользователя (сетевого администратора). Выделяют четыре типа U2R атак: buffer_overflow, loadmodule, perl, rootkit [4].

R2L атаки характеризуются получением доступа незарегистрированного пользователя к компьютеру со стороны удаленного компьютера. Выделяют восемь типов R2L атак: ftp_write, guess_passwd, imap,multihop, phf, spy, warezclient, warezmaster [4].

Probe атаки заключаются в сканировании сетевых портов с целью получения конфиденциальной информации. Выделяют четыре типа Probe атак: ipsweep, nmap, portsweep, satan. Согласно источнику [5] для обнаружения и классификации 9 из 22 типов атак достаточно 29 параметров, характеризующих сетевые соединения.

Обычно для обучения и тестирования ИНС имеющиеся экспериментальные данные разбиваются на обучающую БД и контрольную БД. В проведённых исследованиях в качестве обучающей БД с параметрами сетевых соединений, представляющая собой 10 % от исходного KDD CUP. 99. Записи из полной контрольной БД подавались на обученные НС. На основании результатов этого этапа определяется статистика и даётся анализ эффективности НС по критериям качества распознавания типов аномальных соединений и наличию ложных срабатываний (когда нормальное соединение принимается за атаку) [6].

Состав KDD CUP. 99

Источник

Русские Блоги

Сетевые охранные Статьи по самообучению, основанные на обнаружении и идентификации вторжений и идентификации атаки, набор данных CUP99 KDD9.

Автор Введение: Ян Сиючэнь

С детства это честная и простая личность. Прочитав холодное окно, признайте его, чтобы завершить свое учительницу, отдавая его, пространство и т. Д., Станьте профессиональным учителем университета, и хотите искренне научить своих учеников, помогите больше незнакомцев.,

Один. Кубок KDD предпосылки знания

KDD является упомянутым для добычи полезных ископаемых данных и обнаружение знаний. Кубок KDD является ежегодным конкурсом, организованным ACM ACM (Ассоциация вычислительной системы Machiner SIGKDD (специальная процентная группа по обнаружению знаний и добычи данных).

KDD CUP 1999 DataSet: Это набор данных, используемый в то же время, что и 5-я Международная конференция по открытию знаний и международной конференции по добыванию данных в KDD-99. Конкурентная задача состоит в том, чтобы установить сетевой детектор вторжения, который представляет собой прогнозную модель, которая отличает «плохое» соединение и «хорошее» нормальное соединение, называемое вторжением или атакой. Этот набор данных содержит набор стандартных данных, которые будут просмотрены, включая несколько вторжений, смоделированных в среде военной сети.

Файлы данных включают в себя:

Департамент обороны США, оборона США, обороны США, обороны США провели проект оценки обнаружения вторжений в лаборатории MIT Линкольна. LINCOLN LAB создала сетевую среду, которая имитирует локальную локон ВВС США, собирает данные TCPDUMP () Network и системные аудиторские данные в течение 9 недель в течение 9 недель, имитирует различные типы пользователей, различные сетевые трафики и методы атаки, что делает его как настоящую сетевую среду. Исходные данные, собранные этими TCPDUMP, делится на две части: 7 недель учебных данных, которые содержат более 5 000 000 записей сетевых подключений, а остальные 2-недельные данные тестируют данные содержит 2 000 000 записей сетевых подключений.

DOS (отрицание обслуживания) отрицание атаки на обслуживании, таких как пинг-смерть, SYN наводнения, Smurf и т. Д.

Несанкционированный доступ с удаленной машины на локальную машину от несанкционированного доступа от удаленного хоста, такого как Guesing Password.

U2R (несанкционированный доступ к привилегии местных сверхугольников местный неповторимый пользователь) несанкционированной локальной привилегии суперпользователя, такие как атаки переполнения буфера.

Исследование (наблюдение и зондирование) мониторинг или сканирование порта, такое как порта Scan, Ping-Sweep и т. Д.

Профессор SAL Stolfo из Университета Колумбии и Уэньке Ли из Северной Каролины, с использованием технических горнодобывающих и других технологий, анализ функций и предварительной обработки данных, формируя новый набор данных. Набор данных используется в конкурсе Кубка KDD, состоявшемся в 1999 году, став знаменитым набором данных KDD99. Хотя существуют несколько долгосрочных возрастов, набор данных KDD99 по-прежнему тот факт, что Benckmark в поле обнаружения сетевого вторжения является основой для изучения обнаружения вторжения сетевого вторжения на основе вычислительной интеллект.

2. Описание функции данных

Загруженный набор данных отображается на рисунке ниже, вот эксперимент с набором данных 10%.

Ниже показаны три записи, в общей сложности 42 функциями, а последний столбец представляет собой метку, а другие первые 41 функции разделены на четыре категории.

TCP Соединение Основные характеристики (9 видов, номер 1

Характеристики содержимого подключения TCP (13 видов, серийный номер 10

Статистические характеристики сетевого трафика на основе времени (9 видов, номер 23

Статистика сети трафика на основе хоста (10 видов, серийный номер 32

Далее конкретное значение каждой функции объясняется в порядке, что является очень необходимым до анализа данных.

1.TCP Соединение Основные характеристики (9 типов, номер 1

Основные функции соединения включают в себя некоторые основные свойства соединения, такие как непрерывное время, тип протокола, и количество переданных байтов.

2. Характеристики содержания TCP-соединения (13 видов, серийный номер 10

Такие атаки, такие как U2R и R2L, поскольку они являются неразделенными режимами последовательности в записях данных в записи данных, они, как правило, встроены в загруженность данных в пакете данных, и в пакете данных нет различий в пакете данных. Чтобы обнаружить такие атаки, Wenke Lee et al. Принял некоторые функции содержимого, которые могут отражать поведение вторжения в содержимом данных, например, количество неисправности логинов.

3. Статистика сети трафика на основе времени (9 видов, количество серийных номеров 23

4. В основном статистика сети трафика (10 видов, серийный номер 32

5. Анализ образца

Wende Lee et al. Отправить часть дубликатов данных, таких как при выполнении атаки DOS, при выполнении атаки DOS и принимает только запись соединения в течение 5 минут, что и набор данных типа атаки во время атаки. В то же время нормальное соединение данных также случайно извлекается как обычный набор данных. Набор данных KDD99 состоит из 5 миллионов записей, и он также предоставляет 10% тренировочное подмножество и тестовое подмножество, которое распределяет категорию выборки следующим образом:

Нормальный: нормальный доступ, учебный набор (10%) имеет 97 278 образцов и 40593 образцов (исправлено).

Зонд: мониторинг порта или сканирование, набор тренировок (10%) имеет 4107 образцов, а 4166 образцов (исправлено) имеет 4166 образцов. Атаки включают в себя: IPSweep, MSCAN, NMAP, Portsweep, Saint, Satan.

DOS: Dented Service Attack, Учебный набор (10%) имеет 391458 образцов, а тестовый набор имеет 22 9853 образцов. Атаки включают в себя: apache2, обратно, земля, mailbomb, neptune, pod, placttable, smurf, teardrop, udpstorm.

U2R: Несанкционированный локальный привилегированный доступ на суперзор, набор обучения (10%) имеет 52 образцов, 228 образцов (исправлено). Атаки включают в себя: BUFFER_OVERFLOW, HTTPTUNNELL, LOODALMODULULULEL, PERL, PS, ROOTKIT, SQLATTACK, XHTERM.

R2L: Несанкционированный доступ от удаленного хоста, набор тренировок (10%) имеет 1126 образцов, а тестовый набор имеет 16189 образцов. Атаки включают в себя: ftp_write, guend_passwd, imap, multihop, named, phf, sendmail, snmpgetack, snmpguess, spy, warezclient, warezmaster, worm, xlock, xsnoop.

(1) KDD99 разделяет тип атаки на 4 категории, а затем подразделяется на 39 маленьких классов, каждый из которых представляет собой тип атаки, и имя типа помечено в последнем элементе каждой строки набора данных.

(2) Некоторые типы атак появляются только в тестовом наборе (или наборе тренировок) без появления набора тренировок (или тестового набора). Например, 10% набора данных, набор обучения имеет в общей сложности 22 типов атак, а оставшиеся 17 появляются только в концентрации тестирования, целью этого является проверка обобщения модели классификатора и возможностей обнаружения Известных типов атак это важный показатель для оценки качества системы обнаружения вторжения.

В-третьих. Обработка данных Python

1.kdd 99 Набор данных Оценка

Способ обнаружения вторжения принципиально разработать классификатор, который может различать нормальные и ненормальные данные в потоке данных, тем самым реализуя аварийные сигналы для поведения атаки. Целью набора данных этой статьи KDD99 является предоставление единой оценки оценки эффективности для систем обнаружения вторжений, часто используемых для испытания алгоритмов обнаружения вторжений в академических кругах. Эта статья обучает 10% тренировочный набор в наборе данных, а затем тестирует производительность классификатора с корреводственным тестовым набором, который может быть байесами, дерева решений, нейронная сеть или вектор поддержки.

Выбор функций является еще одним основным применением набора данных KDD99. В наборе данных KDD99 есть 41 функции для каждого соединения. Для классификатора правила извлечения, которые должны быть извлечены из многих функций, являются экономически эффективными, что отражено в некоторых не связанных или избыточных функциях, часто снижают модель классификатора. Точность обнаружения. и скорость. Более того, для процесса извлечения функций из исходных данных TCPDAMP он также будет трудным и потребляющим трудоемким, что является фатальным для системы обнаружения онлайн-вторжений. Следовательно, необходимо удалить избыточные характеристики или обитатели, необходимо улучшить точность скорости и обнаружения классификатора обучения и точности обнаружения. Чтобы объяснить, что оптимальное подмножество функций может отличаться для разных классификаторов.

Оценка набора данных

Итак, я надеюсь, что эта основная статья поможет вам.

2. Преобразование типа символов в числовой тип

Во время добычи данных предварительная обработка данных всегда была очень важным звеном, и только форма преобразования в одобренной классификации может быть обучена. Следующий код относится к Atticle и Github код, который представляет собой код GitHub, который очень мощный. Рекомендуется прочитать его статью (https://blog.csdn.net/asialee_bird).

Лично думать, что самая большая изюминка этого кода:

(1) Эффективно преобразовать данные, установленные в данных, установленных в тип значения, который является общим методом профилактики сбора данных.

(2) Различные типы учебных наборов и тестовых наборов, добавляют новые весы через глобальные переменные, а обнаружение неизвестных типов является важным показателем алгоритмов оценки.

Результат показан на следующем рисунке:

Четыре. KNN реализует обнаружение вторжений

1. Когда K = 3, первый круг на рисунке содержит три графики, с двумя треугольниками, один квадрат, круг, результат классификации представляет собой треугольник.

Читайте также: какой кистью лучше наносить тени для век
2. Когда K = 5, второй круг содержит пять графических, 2 треугольников, три квадрата и предсказывают круг как квадратный маркер с результатами голосования 3: 2.

Короче говоря, установите разные значения K, которые могут предсказать разные результаты.

KneighborsClassifier может установить 3 алгоритма: Brute, KD_Tree, Ball_tree, настройка параметров значения K N_Neighbors = 3.

Метод вызова выглядит следующим образом:

2. Реализация алгоритма

Далее был запущен анализ классификации алгоритма KNN, где основные шаги KNN Core Algorithm включали пять шагов:

Набор данных нагрузки

Приведенный выше код очень прост, и его результаты вывода показаны ниже. Но есть также несколько недостатков:

Набор данных KDDCUP.DATA_10_PERCT_CORRED.CSV Случайно разделен на наборы тренировок и тестовые наборы, а TRUE предназначен для тренировки, другой прогноз набора данных, а концентрация тестирования имеет неизвестные атаки.

Этот код не рассматривает нормализацию данных, обработка стандартизации данных, а значение набора данных устанавливается для распространения нескольких значений, что влияет на окончательный эксперимент.

Оценка этого эксперимента должна рассчитать ROC, AUC Curve.

Данные очень перекрываются, поэтому мы оптимизируем алгоритм KNN.

V. Оптимизация алгоритма обнаружения вторжения

1. Численная стандартизация

Стандартизация данных в основном является случай, когда данные очень диспергируются в векторе объекта, предотвращая проглатывание небольших данных большим данным (абсолютное значение). Кроме того, стандартизация данных также ускорила обучение для предотвращения роли градиентного взрыва. Ниже приведены два изображения, вырезанные из видео Li Hongyi, левая фигура указывает на функцию обновления потерь, которая не передает стандартизацию данных, а правильная диаграмма указывает на диаграмму обновления потерь после стандартизации данных. Видно, что стандартизированные данные легче итерации для оптимальной точки, а конвергенция быстрее.

В кластеризации \ классификационного алгоритма данные используются для кластера \ классификации с использованием метода расчетного расстояния, и существует два типа дискретных значений и непрерывных и непрерывных и непрерывных типов фиксированных свойств контроля соединения. Для непрерывных свойств объектов метрические методы каждого атрибута различны. В целом, тем меньше используемое измерительное устройство, тем больше значение переменной, поэтому чем больше влияет на результаты кластеризации, то есть, тем больше влияние кластера при расчете расстояния данных, даже «больших» еды » Десятичное «явление.

Следовательно, для того, чтобы избежать зависимости от селекции метрических блоков, устраните влияние разницы в различий метрики атрибута, значение свойства должна быть стандартизирована. Атрибут дискретной функции не стандартизирован в этой статье, но обрабатывается, когда расстояние рассчитывается в алгоритме кластеризации. Таким образом, стандартизация данных предназначена для непрерывных свойств объектов.

Установка набора тренировок имеет N сетевые записи соединения, а 22 последовательных свойства в каждой записи записываются как Xij (1 ≤ I ≤ n, 11 ≤ j ≤ 41). Предварительная обработка данных Xij разделена на два этапа: численная стандартизация и числовая нормализация.

Для этого набора данных конкретная формула выглядит следующим образом:

Основной код выглядит следующим образом, что говорит о том, что читатель использует мой тест на набор данных или проверку данных, в противном случае требуется много времени.

Данные до стандартизации показывают, что, как показано ниже:

Частые обработанные данные следующие:

2. Численная нормализация

Стандартизация Min-Max (нормализация Min-Max)

Также известно как пружина стандартизирована, линейное преобразование необработанных данных и значение результата отображается между [0, 1]. Функция преобразования выглядит следующим образом:

Нормализованный код основного ядра выглядит следующим образом:

Выходные результаты показаны ниже:

3. Обнаружение и оценка KNN

Последний код заключается в следующем, в основном, включая следующие функции:

Классификация алгоритма KNN для наборов данных после нормализации и процесса нормализации

Вычисление в Европе, рисуя карту распределения (серийный номер, минимальное европейское расстояние, стандарт класса)

Тем не менее, экспериментальный эффект очень неудовлетворительный, я не знаю, какую конкретную причину, эй, мое сердце устало

Когда я его пользуюсь, я помогу определить, правильно ли предыдущая стандартизация и код нормализации.

4.Поделиться для совместного использования кода

Наконец, предоставьте код Github, надеюсь помочь читателям, обратитесь к Боги и коду Бога Гун Ю.

Результаты операции следующие, эта статья все ресурсы ссылаются на мой github.

Skays, заказы, продольные координаты, разброс цвет класса (нормальный, атаку).

Резюме

Написание здесь, это обнаружение в атаке и идентификация атаки обучения машины завершена. В строгом смысле эта статья является анализом данных, у него есть несколько основных моментов:

(1) Подробности характеристики преобразования преобразования в анализе данных предварительной обработки в численные особенности, стандартизация данных, нормализация данных, которые очень простой.

(2) сочетание классификации внедрения приложения обнаружения вторжений.

(3) Нарисуйте график разброса, используя серийный номер, минимальное европейское расстояние, этикетка класса и рисунок ROC Curve не передается ранее.

(4) Восточный код или обнаружение вторжений, последующий автор также будет углублен, включая исходный код, двоичный анализ.

В этой статье также есть несколько недостатков:

(1) Последний экспериментальный эффект очень неудовлетворительный, но общее представление об этой статье стоит обучения, она рекомендуется от моего Github для изучения.

(2) Последующий автор пытается объединить глубокое обучение, распознавание изображений сделать анализ вредоносных кодов.

(3) Автор только что узнал поле безопасности, и это также очень блюдо, и есть слишком много знаний, но он всегда будет работать.

Короче говоря, я надеюсь, что основная статья поможет вам. Если в статье есть ошибка или недостатки, пожалуйста, спросите и Haihan, надеюсь добиться успеха с вами.

Тянь Синцзя, джентльмен принял самосовершенствование.

Источник