ML Vault
All notes

kNN

Свойства:

  • простая
  • вычислительно дорогая
  • можно выбирать различные подсчеты дистанций
  • обычно для классификации и кластеризации
  • непараметрический метод, не требуется обучение, нужно просто запомнить выборку
  • наиболее универсальный алгоритм

Гиперпараметры:

  • количество соседей (k)
  • функция подсчета расстояния

Развитие: Weighted kNN.
У соседей будет вес, который обратно пропорционально убывает относительно расстояния до него (чем дальше, тем меньше влияние).
Тогда вероятность класса — это сумма расстояний до соседей этого класса деленная на сумму расстояний до всех соседей.

Как решать регрессию?
Вместо классов, объекты имеют какое-то число, берем ближайших соседей и высчитываем по ним среднее число. Можно также с весами.

Функции подсчета расстояния:

  • евклидово
  • косинусное

Признаки обязательно нужно отнормировать (Пример: зарплата в какой-то бухгалтерии представлена как число в рублях и в копейках и они в разных фичах, а мы об этом не знаем, тогда прирост копеек будет иметь такое же влияние, как прирост рублей, поэтому надо перевести все в одну шкалу (копейки станут долей рублей))