ML Vault
All notes

Naive Bayes classifier

  • в отличие от kNN не нужно запоминать всю выборку, а запомнить достаточные статистики для распределения, из которого пришли признаки в наших данных
  • непараметрический метод
  • наивное предположение жесткое, в реальности оно не особо выполняется

по Bayes' theorem имеем:
Есть 2 события:

  1. для i-го объекта наблюдаем k-ый класс
  2. пронаблюдали xi вектор
    Наивное предположение:
  • признаки независимы
    Зачем нужно наивное предположение:
    если признаки зависимы, то если они, например, пришли из R^p и принадлежат p-мерному нормальное распределению, то для оценки параметров p-мерного нормального распределения нам нужно p средних и ковариционную матрицу p на p, получается очень много параметров, что дорого, а если предположить, что признаки независимы, то для каждого признака можно выбрать свое распределение и вычислить параметры распределения (просто взяв столбец с нужным признаком из датасета)
    Примечания:
    Из-за предположения, что признаки независимы, нормировка не важна (но с ней все равно лучше, большая численная устойчивость)