8000 GitHub - carlosandretaiga/processador-pdf: Aplicação Streamlit para processamento de PDFs e imagens usando diversas bibliotecas
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content
8000

Aplicação Streamlit para processamento de PDFs e imagens usando diversas bibliotecas

Notifications You must be signed in to change notification settings

carlosandretaiga/processador-pdf

Repository files navigation

Processador de PDF e Imagens

Aplicação Streamlit para processamento de documentos PDF e imagens usando diversas bibliotecas especializadas.

Funcionalidades

  • Upload de arquivos PDF e imagens
  • Escolha entre múltiplas bibliotecas de processamento:
    • PyPDF2/PyPDF4: Extração básica de texto de PDFs
    • pdfminer.six: Extração detalhada de texto, layout e metadados
    • pytesseract: OCR para extrair texto de imagens
    • OpenCV: Pré-processamento de imagens
    • pdf2image: Conversão de PDFs para imagens
    • Camelot: Extração de tabelas de PDFs
    • Tabula-py: Extração de tabelas
    • PDFPlumber: Extração de texto, tabelas e metadados
    • PyMuPDF: Processamento versátil de PDFs
    • EasyOCR: OCR multilíngue

Instalação

pip install -r requirements.txt

Execução

streamlit run app.py

Requisitos

  • Python 3.8+
  • Tesseract OCR (para pytesseract)
  • Java Runtime Environment (para tabula-py)

About

Aplicação Streamlit para processamento de PDFs e imagens usando diversas bibliotecas

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published
0