8000 GitHub - MariaKhanova/Project-3.-Booking.com
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

MariaKhanova/Project-3.-Booking.com

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 

Repository files navigation

alt text

Проект: Оценки отелей на Booking.com

Оглавление

1. Описание проекта
2. Какой кейс решаем?
3. Этапы работы над проектом
4. Результаты исследования
5. Критерии оценивания
6. Использованные инструменты и библиотеки

Описание проекта

Вы работаете дата-сайентистом в компании Booking. Одна из проблем компании — это нечестные отели, которые накручивают себе рейтинг. Одним из способов обнаружения таких отелей является построение модели, которая предсказывает рейтинг отеля. Если предсказания модели сильно отличаются от фактического результата, то, возможно, отель ведёт себя нечестно, и его стоит проверить.

к оглавлению

Какой кейс решаем?

✔️ Создаём свою первую модель, основанную на алгоритмах машинного обучения;

✔️ Принимаем участие в соревновании на Kaggle;

✔️ Разбираемся, как правильно «подготовить» данные, чтобы ваша модель работала лучше.

к оглавлению

Этапы работы над проектом

Модель машинного обучение нам дана в готовом виде.

Основная наша задача состоит в:

  • Очистке данных;
  • Проектировании и создании новых признаков;
  • Разведовательном анализе данных (EDA).

В результате проделанной работы мы должны добиться наилучшего показателя метрики и выставить свой результат на соревнование на Kaggle.

Для рашения поставленной задачи нам представлен датасет, в котором содержатся сведения о 515 738 отзывов на отели Европы.

Датасет уже разбит на тренировочные и тестовые данные в соотношении 1/3. Проекту также предоставлен образец файла submission.csv в который мы запишем результаты работы модели, чтобы выставить на соревнование.

к оглавлению

Результаты исследования

  • На тестовых данных полученный результат метрики MAPE: 12.15296, начальный результат метрики MAPE: 14.15449

  • Опытным путем установлено, что наибольшее повышение точности модели удалось получить именно за счет генерации новых признаков из имеющихся данных.

  • Отбор признаков на этапе анализа важности признаков для целевой переменной принес вклад около 0.3 процентных пунктов. При этом удаление большего количества признаков даже ухудшает качество модели

  • В соревновании я заняла 47 место из 531

к оглавлению

Критерии оценивания

  • Качество кода (соблюдение стандартов оформления PEP-8, комментирование кода, README к проекту). Оформление проекта на GitHub, GitLab, Kaggle.
  • Очистка данных.
  • Исследование данных (качество визуализации, наличие идей, гипотез, комментариев).
  • Генерация признаков.
  • Отбор признаков.
  • Преобразование признаков.
  • Качество решения: результат метрики MAPE.

Использованные инструменты и библиотеки

  • NumPy
  • Pandas
  • Seaborn
  • Matplotlib

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published
0