ML Vault
All notes

Pearson correlation coefficient

Коэффициент корреляции Пирсона () — это мера линейной зависимости между двумя переменными. В контексте рекомендательных систем он часто используется для измерения схожести пользователей или товаров.
📌 Формула
Для двух векторов $A = (a_1, a_2, …, a_n)$ и $B = (b_1, b_2, …, b_n)$:
$$r(A, B) = \frac{\sum_{i=1}^{n} (a_i - \bar{A})(b_i - \bar{B})}{\sqrt{\sum_{i=1}^{n} (a_i - \bar{A})^2} \cdot \sqrt{\sum_{i=1}^{n} (b_i - \bar{B})^2}}$$
где:
• $\bar{A}$ и $\bar{B}$ — средние значения векторов.

Результат:
• $r = 1$ → полная положительная корреляция (сильная схожесть).
• $r = 0$ → отсутствие линейной зависимости.
• $r = -1$ → полная отрицательная корреляция (противоположные предпочтения).

⚠️ Ограничения и проблемы
1️⃣ Не учитывает масштаб оценок
• Один пользователь может ставить оценки в диапазоне [1, 3], а другой [3, 5], но их предпочтения могут быть схожи.
Решение: можно нормализовать оценки.

2️⃣ Проблема разреженности данных
• Если у двух пользователей мало общих оцененных товаров, коэффициент будет ненадежным.
Решение: использовать SVD, ALS или нейросетевые модели.

3️⃣ Чувствителен к выбросам
• Один экстремальный рейтинг может сильно изменить значение коэффициента.
Решение: можно использовать взвешенный вариант.