Les meilleurs développeurs informatique freelances sont sur Codeur.com

Recherche déMiveloppeur expérimenté en chatbots LLM (RAG, PDF, OpenAI)

 Fermé · 1 000 € à 10 000 € · 8 offres · 752 vues


Contexte :
Nous cherchons un développeur (ou une petite équipe) expérimenté pour construire un pipeline OCR robuste et modulaire, capable de traiter des documents PDF (scannés ou non), en combinant plusieurs technologies existantes (APIs gratuites ou payantes comme AWS Textract, Tesseract, Mistral OCR, etc.).

Objectif principal :
Créer un système de traitement OCR “PDF-in / PDF-out” capable de :

Générer un PDF avec couche de texte OCR (si possible avec positionnement fidèle des caractères).

Extraire automatiquement les tableaux présents dans le document et générer un fichier Excel ou CSV propre et structuré.

(Bonus) Générer une version structurée du document au format Markdown, avec un rendu lisible, cohérent et bien hiérarchisé.

Livrables attendus :

Un script ou un petit service (Python ou autre techno adaptée) pouvant être exécuté en ligne de commande ou intégré dans un pipeline.

Un fichier PDF avec couche de texte OCR en sortie.

Un fichier Excel/CSV avec les tableaux extraits.

(Optionnel mais fortement apprécié) Une version Markdown bien structurée du contenu.

Documentation succincte pour déployer et tester le système.

Contraintes / Attentes techniques :

Utilisation de plusieurs briques technologiques existantes, selon les cas :

AWS Textract (notamment pour les tableaux)

Tesseract, Mistral OCR, PaddleOCR ou autres selon pertinence

Prise en charge des cas complexes : images dans le PDF, zones floues, tableaux imbriqués, etc.

Traitement robuste des données tabulaires (pas de CSV corrompus ou mal formatés).

Résultat utilisable en environnement de production, avec un bon équilibre entre performance et qualité.

Code clair, modulaire, avec logs pour débogage et possibilités d'évolution.

Profil recherché :

Expérience avérée en OCR, traitement de documents PDF, extraction de données.

Maîtrise de Python (idéalement), APIs cloud (AWS, etc.), et bibliothèques comme PyMuPDF, pdfplumber, pdf2image, pandas, etc.

Sens du détail, notamment dans le rendu final (cohérence visuelle et structurelle du PDF OCRisé).

Capacité à proposer des solutions efficaces et industrialisables.

Déroulement de la mission :

Échange initial pour clarifier les besoins, choix technos si nécessaire.

Livraison d’une première version fonctionnelle sous 1 à 2 semaines.

Aller-retours pour ajustements si besoin.

Livraison finale avec documentation.

Budget indicatif : 1 000 € à 10 000 €

Publication : 04 avril 2025 à 11h47

Profils recherchés : Développeur spécifique freelance , Développeur Python freelance , Développeur API freelance

Le profil du client est reservé aux prestataires abonnés

Créer un compte

8 freelances ont répondu à ce projet

8 propositions de devis en moins de 2h

Hugo Battoue Agence développement spécifique
Ludwig Leplan Agence développement spécifique
Fabien Déchery Agence développement spécifique
ND-AgreeCII Agence développement spécifique
WEELITE Agence web
Gabriel Genoni Développeur WordPress
Jérémi Bussignies Consultant SaaS
+1
Publier un projet similaire

Chaque jour, des centaines de clients utilisent Codeur.com pour trouver un prestataire. Créez votre compte dès maintenant, remplissez votre profil et trouvez de nouveaux clients.

Trouver des nouveaux clients