Les meilleurs développeurs informatique freelances sont sur Codeur.com

Développement d’un pipeline OCR PDF-in/out + CSV + Markdown

 Fermé · 1 000 € à 10 000 € · 22 offres · 5425 vues · 38 interactions


Contexte :
Nous cherchons un développeur (ou une petite équipe) expérimenté pour construire un pipeline OCR robuste et modulaire, capable de traiter des documents PDF (scannés ou non), en combinant plusieurs technologies existantes (APIs gratuites ou payantes comme AWS Textract, Tesseract, Mistral OCR, etc.).

Objectif principal :
Créer un système de traitement OCR “PDF-in / PDF-out” capable de :

Générer un PDF avec couche de texte OCR (si possible avec positionnement fidèle des caractères).

Extraire automatiquement les tableaux présents dans le document et générer un fichier Excel ou CSV propre et structuré.

(Bonus) Générer une version structurée du document au format Markdown, avec un rendu lisible, cohérent et bien hiérarchisé.

Livrables attendus :

Un script ou un petit service (Python ou autre techno adaptée) pouvant être exécuté en ligne de commande ou intégré dans un pipeline.

Un fichier PDF avec couche de texte OCR en sortie.

Un fichier Excel/CSV avec les tableaux extraits.

(Optionnel mais fortement apprécié) Une version Markdown bien structurée du contenu.

Documentation succincte pour déployer et tester le système.

Contraintes / Attentes techniques :

Utilisation de plusieurs briques technologiques existantes, selon les cas :

AWS Textract (notamment pour les tableaux)

Tesseract, Mistral OCR, PaddleOCR ou autres selon pertinence

Prise en charge des cas complexes : images dans le PDF, zones floues, tableaux imbriqués, etc.

Traitement robuste des données tabulaires (pas de CSV corrompus ou mal formatés).

Résultat utilisable en environnement de production, avec un bon équilibre entre performance et qualité.

Code clair, modulaire, avec logs pour débogage et possibilités d'évolution.

Profil recherché :

Expérience avérée en OCR, traitement de documents PDF, extraction de données.

Maîtrise de Python (idéalement), APIs cloud (AWS, etc.), et bibliothèques comme PyMuPDF, pdfplumber, pdf2image, pandas, etc.

Sens du détail, notamment dans le rendu final (cohérence visuelle et structurelle du PDF OCRisé).

Capacité à proposer des solutions efficaces et industrialisables.

Déroulement de la mission :

Échange initial pour clarifier les besoins, choix technos si nécessaire.

Livraison d’une première version fonctionnelle sous 1 à 2 semaines.

Aller-retours pour ajustements si besoin.

Livraison finale avec documentation.

Budget indicatif : 1 000 € à 10 000 €

Publication : 04 avril 2025 à 11h53

Profils recherchés : Développeur spécifique freelance , Développeur Python freelance , Développeur back-end freelance , Expert AWS freelance , Développeur API freelance

Le profil du client est reservé aux prestataires abonnés

Créer un compte

22 freelances ont répondu à ce projet

20 propositions de devis en moins de 2h

Kamon Ayeva Agence de développement Python
Hugo Battoue Agence développement spécifique
Yatma Gueye Agence web
Spidrontech - Votre Partenaire Mobile Et Web Agence de développement web
Kévin  Guiot Développeur full-stack
EncureIT_Systems Agence IA
Stéphane Bieber Agence web
+15

Montant moyen des devis proposés : 2 950 €

Estimation du délai : 13 jours

Publier un projet similaire

Chaque jour, des centaines de clients utilisent Codeur.com pour trouver un prestataire. Créez votre compte dès maintenant, remplissez votre profil et trouvez de nouveaux clients.

Trouver des nouveaux clients