Análise de Dados de Filmes - The Movies Dataset

Este projeto tem como objetivo explorar e transformar os dados do The Movies Dataset, disponível no Kaggle, com foco na preparação e limpeza dos dados para futuras análises e visualizações.

Objetivo

O principal objetivo inicial deste projeto é realizar a limpeza e transformação de colunas que estão no formato JSON (armazenadas como string) para estruturas mais apropriadas, como tabelas normalizadas. Com isso, é possível facilitar análises posteriores, como:

Gêneros mais comuns em filmes;
Relação entre nota média e orçamento;
Evolução da produção cinematográfica ao longo dos anos;
Possíveis sistemas de recomendação no futuro.

Fonte dos Dados

Dataset: The Movies Dataset - Kaggle
Arquivos utilizados:
- movies_metadata.csv

Principais Etapas Realizadas

Carregamento dos dados com Pandas
- Tratamento de avisos de tipo (DtypeWarning)
- Conversão de colunas problemáticas para string ou uso de low_memory=False
Limpeza de dados
- Remoção de valores inválidos e nulos
Transformação de colunas JSON-like
- Colunas como genres, production_companies, spoken_languages, entre outras, estavam armazenadas como listas de dicionários em formato texto
- Utilização de ast.literal_eval para converter para estruturas Python reais
- Criação de colunas intermediárias e tabelas auxiliares (por exemplo, genres, movies_genres) para normalização
Preparação para análises futuras
- Dataset pronto para ser utilizado em dashboards, visualizações e modelos preditivos

Ferramentas Utilizadas

Python
Pandas
Jupyter Notebook

Como Reproduzir

Clone este repositório:

git clone https://github.com/ivitor0/movies-dataset.git
cd seu-repositorio

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md
data_cleanse.ipynb		data_cleanse.ipynb
dim_countries.csv		dim_countries.csv
dim_genres.csv		dim_genres.csv
dim_keywords.csv		dim_keywords.csv
dim_movies_countries.csv		dim_movies_countries.csv
dim_movies_countries_df.csv		dim_movies_countries_df.csv
dim_movies_genres.csv		dim_movies_genres.csv
dim_movies_keywords.csv		dim_movies_keywords.csv
dim_movies_production_companies.csv		dim_movies_production_companies.csv
dim_production_companies.csv		dim_production_companies.csv
fact_movies_dataset.csv		fact_movies_dataset.csv
movies_metadata.csv		movies_metadata.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Análise de Dados de Filmes - The Movies Dataset

Objetivo

Fonte dos Dados

Principais Etapas Realizadas

Ferramentas Utilizadas

Como Reproduzir

About

Releases

Packages

Languages

ivitor0/movies-dataset

Folders and files

Latest commit

History

Repository files navigation

Análise de Dados de Filmes - The Movies Dataset

Objetivo

Fonte dos Dados

Principais Etapas Realizadas

Ferramentas Utilizadas

Como Reproduzir

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages