Développement d’un pipeline OCR PDF-in/out + CSV + Markdown

Fermé · 1 000 € à 10 000 € · 22 offres · 5433 vues · 38 interactions

Faire une offre Publier un projet similaire

Contexte :
Nous cherchons un développeur (ou une petite équipe) expérimenté pour construire un pipeline OCR robuste et modulaire, capable de traiter des documents PDF (scannés ou non), en combinant plusieurs technologies existantes (APIs gratuites ou payantes comme AWS Textract, Tesseract, Mistral OCR, etc.).

Objectif principal :
Créer un système de traitement OCR “PDF-in / PDF-out” capable de :

Générer un PDF avec couche de texte OCR (si possible avec positionnement fidèle des caractères).

Extraire automatiquement les tableaux présents dans le document et générer un fichier Excel ou CSV propre et structuré.

(Bonus) Générer une version structurée du document au format Markdown, avec un rendu lisible, cohérent et bien hiérarchisé.

Livrables attendus :

Un script ou un petit service (Python ou autre techno adaptée) pouvant être exécuté en ligne de commande ou intégré dans un pipeline.

Un fichier PDF avec couche de texte OCR en sortie.

Un fichier Excel/CSV avec les tableaux extraits.

(Optionnel mais fortement apprécié) Une version Markdown bien structurée du contenu.

Documentation succincte pour déployer et tester le système.

Contraintes / Attentes techniques :

Utilisation de plusieurs briques technologiques existantes, selon les cas :

AWS Textract (notamment pour les tableaux)

Tesseract, Mistral OCR, PaddleOCR ou autres selon pertinence

Prise en charge des cas complexes : images dans le PDF, zones floues, tableaux imbriqués, etc.

Traitement robuste des données tabulaires (pas de CSV corrompus ou mal formatés).

Résultat utilisable en environnement de production, avec un bon équilibre entre performance et qualité.

Code clair, modulaire, avec logs pour débogage et possibilités d'évolution.

Profil recherché :

Expérience avérée en OCR, traitement de documents PDF, extraction de données.

Maîtrise de Python (idéalement), APIs cloud (AWS, etc.), et bibliothèques comme PyMuPDF, pdfplumber, pdf2image, pandas, etc.

Sens du détail, notamment dans le rendu final (cohérence visuelle et structurelle du PDF OCRisé).

Capacité à proposer des solutions efficaces et industrialisables.

Déroulement de la mission :

Échange initial pour clarifier les besoins, choix technos si nécessaire.

Livraison d’une première version fonctionnelle sous 1 à 2 semaines.

Aller-retours pour ajustements si besoin.

Livraison finale avec documentation.