Проект: Оценки отелей на Booking.com

Описание проекта

Вы работаете дата-сайентистом в компании Booking. Одна из проблем компании — это нечестные отели, которые накручивают себе рейтинг. Одним из способов обнаружения таких отелей является построение модели, которая предсказывает рейтинг отеля. Если предсказания модели сильно отличаются от фактического результата, то, возможно, отель ведёт себя нечестно, и его стоит проверить.

к оглавлению

Какой кейс решаем?

✔️ Создаём свою первую модель, основанную на алгоритмах машинного обучения;

✔️ Принимаем участие в соревновании на Kaggle;

✔️ Разбираемся, как правильно «подготовить» данные, чтобы ваша модель работала лучше.

к оглавлению

Этапы работы над проектом

Модель машинного обучение нам дана в готовом виде.

Основная наша задача состоит в:

Очистке данных;
Проектировании и создании новых признаков;
Разведовательном анализе данных (EDA).

В результате проделанной работы мы должны добиться наилучшего показателя метрики и выставить свой результат на соревнование на Kaggle.

Для рашения поставленной задачи нам представлен датасет, в котором содержатся сведения о 515 738 отзывов на отели Европы.

Датасет уже разбит на тренировочные и тестовые данные в соотношении 1/3. Проекту также предоставлен образец файла submission.csv в который мы запишем результаты работы модели, чтобы выставить на соревнование.

к оглавлению

Результаты исследования

На тестовых данных полученный результат метрики MAPE: 12.15296, начальный результат метрики MAPE: 14.15449
Опытным путем установлено, что наибольшее повышение точности модели удалось получить именно за счет генерации новых признаков из имеющихся данных.
Отбор признаков на этапе анализа важности признаков для целевой переменной принес вклад около 0.3 процентных пунктов. При этом удаление большего количества признаков даже ухудшает качество модели
В соревновании я заняла 47 место из 531

к оглавлению

Критерии оценивания

Качество кода (соблюдение стандартов оформления PEP-8, комментирование кода, README к проекту). Оформление проекта на GitHub, GitLab, Kaggle.
Очистка данных.
Исследование данных (качество визуализации, наличие идей, гипотез, комментариев).
Генерация признаков.
Отбор признаков.
Преобразование признаков.
Качество решения: результат метрики MAPE.

Использованные инструменты и библиотеки

NumPy
Pandas
Seaborn
Matplotlib

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md
eda-3-versionfive.ipynb		eda-3-versionfive.ipynb
image.png		image.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Проект: Оценки отелей на Booking.com

Оглавление

Описание проекта

Какой кейс решаем?

Этапы работы над проектом

Результаты исследования

Критерии оценивания

Использованные инструменты и библиотеки

About

Releases

Packages

Languages

MariaKhanova/Project-3.-Booking.com

Folders and files

Latest commit

History

Repository files navigation

Проект: Оценки отелей на Booking.com

Оглавление

Описание проекта

Какой кейс решаем?

Этапы работы над проектом

Результаты исследования

Критерии оценивания

Использованные инструменты и библиотеки

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages