kNN
Свойства:
- простая
- вычислительно дорогая
- можно выбирать различные подсчеты дистанций
- обычно для классификации и кластеризации
- непараметрический метод, не требуется обучение, нужно просто запомнить выборку
- наиболее универсальный алгоритм
Гиперпараметры:
- количество соседей (k)
- функция подсчета расстояния
Развитие: Weighted kNN.
У соседей будет вес, который обратно пропорционально убывает относительно расстояния до него (чем дальше, тем меньше влияние).
Тогда вероятность класса — это сумма расстояний до соседей этого класса деленная на сумму расстояний до всех соседей.
Как решать регрессию?
Вместо классов, объекты имеют какое-то число, берем ближайших соседей и высчитываем по ним среднее число. Можно также с весами.
Функции подсчета расстояния:
- евклидово
- косинусное
Признаки обязательно нужно отнормировать (Пример: зарплата в какой-то бухгалтерии представлена как число в рублях и в копейках и они в разных фичах, а мы об этом не знаем, тогда прирост копеек будет иметь такое же влияние, как прирост рублей, поэтому надо перевести все в одну шкалу (копейки станут долей рублей))