8000 GitHub - carlosandretaiga/processador-pdf: Aplicação Streamlit para processamento de PDFs e imagens usando diversas bibliotecas

More Web Proxy on the site http://driver.im/

8000

carlosandretaiga / processador-pdf Public

Notifications You must be signed in to change notification settings
Fork 0
Star 1

Aplicação Streamlit para processamento de PDFs e imagens usando diversas bibliotecas

processadorpdf.adre.tech

1 star 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.github/workflows		.github/workflows
.gitignore		.gitignore
Dockerfile		Dockerfile
INSTRUCOES.md		INSTRUCOES.md
README-GitHub.md		README-GitHub.md
README.md		README.md
app.py		app.py
app_minimal.py		app_minimal.py
docker-compose.yml		docker-compose.yml
install_deps.sh		install_deps.sh
requirements-minimal.txt		requirements-minimal.txt
requirements.txt		requirements.txt

Repository files navigation

Processador de PDF e Imagens

Aplicação Streamlit para processamento de documentos PDF e imagens usando diversas bibliotecas especializadas.

Funcionalidades

Upload de arquivos PDF e imagens
Escolha entre múltiplas bibliotecas de processamento:
- PyPDF2/PyPDF4: Extração básica de texto de PDFs
- pdfminer.six: Extração detalhada de texto, layout e metadados
- pytesseract: OCR para extrair texto de imagens
- OpenCV: Pré-processamento de imagens
- pdf2image: Conversão de PDFs para imagens
- Camelot: Extração de tabelas de PDFs
- Tabula-py: Extração de tabelas
- PDFPlumber: Extração de texto, tabelas e metadados
- PyMuPDF: Processamento versátil de PDFs
- EasyOCR: OCR multilíngue

Instalação

pip install -r requirements.txt

Execução

streamlit run app.py

Requisitos

Python 3.8+
Tesseract OCR (para pytesseract)
Java Runtime Environment (para tabula-py)

About

Aplicação Streamlit para processamento de PDFs e imagens usando diversas bibliotecas

processadorpdf.adre.tech

Report repository

Releases

No releases published

Packages

No packages published

Languages

0