1. Описание проекта
2. Какой кейс решаем?
3. Этапы работы над проектом
4. Результаты исследования
5. Критерии оценивания
6. Использованные инструменты и библиотеки
Вы работаете дата-сайентистом в компании Booking. Одна из проблем компании — это нечестные отели, которые накручивают себе рейтинг. Одним из способов обнаружения таких отелей является построение модели, которая предсказывает рейтинг отеля. Если предсказания модели сильно отличаются от фактического результата, то, возможно, отель ведёт себя нечестно, и его стоит проверить.
✔️ Создаём свою первую модель, основанную на алгоритмах машинного обучения;
✔️ Принимаем участие в соревновании на Kaggle;
✔️ Разбираемся, как правильно «подготовить» данные, чтобы ваша модель работала лучше.
Модель машинного обучение нам дана в готовом виде.
Основная наша задача состоит в:
- Очистке данных;
- Проектировании и создании новых признаков;
- Разведовательном анализе данных (EDA).
В результате проделанной работы мы должны добиться наилучшего показателя метрики и выставить свой результат на соревнование на Kaggle.
Для рашения поставленной задачи нам представлен датасет, в котором содержатся сведения о 515 738 отзывов на отели Европы.
Датасет уже разбит на тренировочные и тестовые данные в соотношении 1/3. Проекту также предоставлен образец файла submission.csv в который мы запишем результаты работы модели, чтобы выставить на соревнование.
-
На тестовых данных полученный результат метрики MAPE: 12.15296, начальный результат метрики MAPE: 14.15449
-
Опытным путем установлено, что наибольшее повышение точности модели удалось получить именно за счет генерации новых признаков из имеющихся данных.
-
Отбор признаков на этапе анализа важности признаков для целевой переменной принес вклад около 0.3 процентных пунктов. При этом удаление большего количества признаков даже ухудшает качество модели
-
В соревновании я заняла 47 место из 531
- Качество кода (соблюдение стандартов оформления PEP-8, комментирование кода, README к проекту). Оформление проекта на GitHub, GitLab, Kaggle.
- Очистка данных.
- Исследование данных (качество визуализации, наличие идей, гипотез, комментариев).
- Генерация признаков.
- Отбор признаков.
- Преобразование признаков.
- Качество решения: результат метрики MAPE.
- NumPy
- Pandas
- Seaborn
- Matplotlib