Автор Тема: О кластеризации(Data mining)  (Прочитано 2188 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн XanRas

  • Коллежский регистратор
  • *
  • Сообщений: 1
  • Репутация: 0
О кластеризации(Data mining)
« : ёоЭм 08, 2009, 10:05:40 pm »
такая ситуация:
есть дампы сетевой активности вирусов, каждый дамп описывается следующими характеристиками:
Средняя задержка между пакетами
Минимальная задержка между пакетами
Максимальная задержка между пакетами
Запросов получения файлов(HTTP GET, FTP RETR....)
Запросов получения на DNS запрос(см.выше/кол-во DNS запросов)
Запросов изображений
Получено изображений
Запросов текстовых ресурсов
Получено текстовых ресурсов
Запросов бинарных ресурсов
Получено бинарных ресурсов
TCP SYN запрсов
Повторяющихся запросов файлов
DNS запросов
Всего ошибок
Запросов на сессию(HTTP GET, FTP RETR на tcp сессию)
Дампы перемешиваются с дампами "нормальной активности пользователя", необходимо при помощи кластеризации разделить их(дампы) на "хорошие" и "плохие".
На данный момент реализовал следующий алгоритм:
1. Выбираем первую точку во множестве данных.
2. Делаем ее центром кластера.
3. Для всех остальных точек. Если они не попадают в существующий кластер, то они становятся центром нового кластера.
Точка не попадает в кластер, если находится на большем расстоянии от центра кластера, чем заданный радиус кластера.
И реализована модификация первого алгоритма:
1. сначала происходит распределение точек по заданному количеству кластерам(центры - точки, максимально удаленные друг от друга)
2. если точка не попадает ни в один кластер, то она пропускается.
3. оставшиеся точки добавляются к ближайшим кластерам
Чтобы все это было управляемо, при расчете расстояний между точками(евклидова метрика), каждая характеристика умножается на заданный "весовой коэффициент". Возникает проблема подбора этих вот самых коэффициентов. Такое вот уравнение на 17 неизвестных. Эти весовые коэффициенты очень похожи на весовые коэффициенты в нейронных сетях.
Вопрос к аналитикам:
посоветуйте нетривиальные методы подбора коэффициентов(брутфорс не предлагать)
Вопрос к сетевикам:
оцените подборку анализируемых параметров, с удовольствием выслушаю идеи

Оффлайн aks

  • Администратор
  • Тайный советник
  • *****
  • Сообщений: 2836
  • Репутация: 74
  • Пол: Мужской
Re: О кластеризации(Data mining)
« Ответ #1 : ёоЭм 08, 2009, 10:21:22 pm »
Будет время могу толковых статеек на эту тему подкинуть. У меня жена так уж не первый год проблемами кластеризации занимается. )

Оффлайн Inf-root

  • Глобальный модератор
  • Коллежский советник
  • *****
  • Сообщений: 571
  • Репутация: 21
  • Пол: Мужской
Re: О кластеризации(Data mining)
« Ответ #2 : ёоЭм 09, 2009, 04:25:35 am »
Цитировать
Возникает проблема подбора этих вот самых коэффициентов. Такое вот уравнение на 17 неизвестных. Эти весовые коэффициенты очень похожи на весовые коэффициенты в нейронных сетях.
Вопрос к аналитикам:
посоветуйте нетривиальные методы подбора коэффициентов(брутфорс не предлагать)

Как вариант, можно использовать генетический алгоритм.
В старости нет лучшего утешения,
чем сознание того, что все силы в
молодости отданы делу, которое не
стареет.
(с) Артур Шопенгауэр (немецкий философ)

Оффлайн WaterBoy

  • Коллежский секретарь
  • ***
  • Сообщений: 50
  • Репутация: 0
Re: О кластеризации(Data mining)
« Ответ #3 : ЅЮпСам 12, 2009, 02:51:17 pm »
Не совсем понятно - как тут помогут ГА?

Оффлайн Inf-root

  • Глобальный модератор
  • Коллежский советник
  • *****
  • Сообщений: 571
  • Репутация: 21
  • Пол: Мужской
Re: О кластеризации(Data mining)
« Ответ #4 : ЅЮпСам 13, 2009, 12:20:15 am »
Цитировать
Не совсем понятно - как тут помогут ГА?

А разве не могут помочь?  Если при помощи ГА можно настроить нейронную сеть, почему тут нельзя использовать?
В старости нет лучшего утешения,
чем сознание того, что все силы в
молодости отданы делу, которое не
стареет.
(с) Артур Шопенгауэр (немецкий философ)