All notes

8 недельный план

✅ Общие цели:

Повторить и углубить базу: алгоритмы, метрики, задачи
Практиковать имплементации: от простых моделей до нейросетевых
Разобраться в продакшен-пайплайнах и offline/online метриках
Подготовить сторителлинг: успешно реализованные проекты + ответы на архитектурные вопросы

🗓️ Неделя 1. Основы рекомендательных систем

📚 Теория:

Виды: collaborative, content-based, hybrid
User-based vs item-based
Проблемы: sparsity, cold start, popularity bias
Метрики: Precision@k, Recall@k, MAP, NDCG
💻 Практика:
Реализовать item-based и user-based рекомендатель на MovieLens (pandas + cosine similarity)
Посчитать метрики (Precision@k, Recall@k)
🎯 Цель: понимать фундамент, уметь на пальцах объяснить метрики и простые модели

🗓️ Неделя 2. Matrix factorization и implicit модели

📚 Теория:

ALS, SVD, BPR
Implicit feedback (clicks, views), логика обучения
💻 Практика:
Построить ALS на PySpark или implicit
Реализовать BPR вручную или через lightfm
🎯 Цель: уметь сравнивать методы, объяснить, как работает MF, когда использовать BPR

🗓️ Неделя 3. Feature-based модели (FM, FFM) и пайплайн

📚 Теория:

FM, FFM, one-hot vs embeddings
Подход к ML-based рекоммендациям как задаче ранжирования
💻 Практика:
Реализовать FM через xlearn или libFM
Построить sklearn pipeline с feature engineering и ML-моделью (LightGBM)
🎯 Цель: уметь перейти от item2item к feature-based подходам, понимать плюсы/минусы

🗓️ Неделя 4. Метрики, offline vs online, A/B

📚 Теория:

Метрики offline и online (CTR, retention, conversion)
Проблемы интерпретации A/B (selection bias, novelty)
Обработка логов, time-split, negative sampling
💻 Практика:
Построить оффлайн-пайплайн (train/test по времени, offline метрики)
Провести A/B симуляцию на исторических данных (разделение, bootstrap)
🎯 Цель: уметь объяснить, как оценивать рекоммендации и какие pitfalls бывают

🗓️ Неделя 5. Дип-обучение: Wide & Deep, DeepFM, Two-tower

📚 Теория:

Архитектуры: Wide & Deep, DeepFM, DLRM, Two-Tower
Embeddings, activation units, feature crossing
💻 Практика:
Реализовать Wide & Deep или DeepFM через tensorflow-recommenders
Построить Two-Tower и обсчитать Recall@K
🎯 Цель: уметь объяснить DL-модель, преимущества и когда её использовать

🗓️ Неделя 6. Sequence модели: GRU4Rec, SASRec, BERT4Rec

📚 Теория:

Session-based модели
Attention в рекомендациях
Self-supervised подходы
💻 Практика:
Реализовать GRU4Rec или SASRec на open-source наборе (RecBole)
Объяснить отличие sequence-based от классических моделей
🎯 Цель: уметь рассказать, как учитывать порядок событий и что это дает

🗓️ Неделя 7. Архитектура и продакшен

📚 Теория:

Структура RecSys в проде: retrieval → ranking → reranking
Feature store, real-time latency, serving
Vector search: Faiss, ANN
Monitoring, эксперименты
💻 Практика:
Нарисовать архитектуру продакшен-системы (например, в Notion или draw.io)
Рассказать, как логируются события и как строятся онлайн-фичи
🎯 Цель: показать, что ты умеешь строить систему end-to-end

🗓️ Неделя 8. Интервью и проект

📚 Подготовка:

Ответы на 20+ вопросов про RecSys (могу прислать список)
Подготовка презентации pet-проекта или продакшен-кейса
Примеры: как решал cold-start, как измерял метрики, как отлаживал модель
💻 Практика:
Mock-интервью (самостоятельно или с коллегой)
Финализировать портфолио (GitHub, презентация)
🎯 Цель: уверенно рассказывать про системы, архитектуры, метрики, trade-offs

📦 Дополнительно (по времени/желанию):

RecBole: фреймворк с множеством моделей
Microsoft Recommenders: индустриальные пайплайны
TFRS: для практики с DL-моделями