Naive Bayes classifier
tags
- в отличие от kNN не нужно запоминать всю выборку, а запомнить достаточные статистики для распределения, из которого пришли признаки в наших данных
- непараметрический метод
- наивное предположение жесткое, в реальности оно не особо выполняется
по Bayes' theorem имеем:
Есть 2 события:
- для i-го объекта наблюдаем k-ый класс
- пронаблюдали xi вектор
Наивное предположение:
- признаки независимы
Зачем нужно наивное предположение:
если признаки зависимы, то если они, например, пришли из R^p и принадлежат p-мерному нормальное распределению, то для оценки параметров p-мерного нормального распределения нам нужно p средних и ковариционную матрицу p на p, получается очень много параметров, что дорого, а если предположить, что признаки независимы, то для каждого признака можно выбрать свое распределение и вычислить параметры распределения (просто взяв столбец с нужным признаком из датасета)
Примечания:
Из-за предположения, что признаки независимы, нормировка не важна (но с ней все равно лучше, большая численная устойчивость)