Este projeto tem como objetivo explorar e transformar os dados do The Movies Dataset, disponível no Kaggle, com foco na preparação e limpeza dos dados para futuras análises e visualizações.
O principal objetivo inicial deste projeto é realizar a limpeza e transformação de colunas que estão no formato JSON (armazenadas como string) para estruturas mais apropriadas, como tabelas normalizadas. Com isso, é possível facilitar análises posteriores, como:
- Gêneros mais comuns em filmes;
- Relação entre nota média e orçamento;
- Evolução da produção cinematográfica ao longo dos anos;
- Possíveis sistemas de recomendação no futuro.
- Dataset: The Movies Dataset - Kaggle
- Arquivos utilizados:
movies_metadata.csv
-
Carregamento dos dados com Pandas
- Tratamento de avisos de tipo (
DtypeWarning
) - Conversão de colunas problemáticas para string ou uso de
low_memory=False
- Tratamento de avisos de tipo (
-
Limpeza de dados
- Remoção de valores inválidos e nulos
-
Transformação de colunas JSON-like
- Colunas como
genres
,production_companies
,spoken_languages
, entre outras, estavam armazenadas como listas de dicionários em formato texto - Utilização de
ast.literal_eval
para converter para estruturas Python reais - Criação de colunas intermediárias e tabelas auxiliares (por exemplo,
genres
,movies_genres
) para normalização
- Colunas como
-
Preparação para análises futuras
- Dataset pronto para ser utilizado em dashboards, visualizações e modelos preditivos
- Python
- Pandas
- Jupyter Notebook
- Clone este repositório:
git clone https://github.com/ivitor0/movies-dataset.git cd seu-repositorio