Les meilleurs développeurs informatique freelances sont sur Codeur.com

Python Extraction de sommaire PDF (règles & détection de patterns)

 Fermé · 1 000 € à 10 000 € · 23 offres · 1177 vues · 43 interactions


Nous recherchons un·e freelance expérimenté·e pour transformer nos scripts existants en un package Python propre et robuste capable de générer automatiquement le sommaire (table des matières) de PDF très variés.
Objectif

Combiner plusieurs approches — règles déterministes (expressions régulières, heuristiques), détection de motifs typographiques et, si pertinent, modèles légers de vision ou de NLP — afin d’obtenir un sommaire le plus exhaustif possible tout en gardant un coût de calcul minimal. Le résultat devra s’intégrer directement dans notre pipeline RAG (Retrieval-Augmented Generation).
Missions

Audit & refactor

Cartographier les scripts actuels, supprimer les redondances.

Structurer un package modulaire (pyproject.toml, tests, docstrings).

Implémentation des méthodes

Moteur de règles (regex, hiérarchie de styles, numérotation).

Détection de patterns (zones de texte, indentation, fontes) avec pdfminer.six / pdfplumber / PyMuPDF ou équivalent.

Optionnel : intégration d’une librairie layout légère (Layout-Parser, Tesseract OCR) pour les PDF scannés.

Gestion d’erreurs & robustesse

Détecter et loguer les anomalies (pages illisibles, caractères spéciaux).

Fallbacks automatiques entre méthodes déterministes et heuristiques.

Qualité & performance

Benchmarks de précision vs. temps d’exécution.

Tests PyTest, pipeline GitHub Actions (lint + tests).

Sortie standardisée (JSON) prête à être injectée dans notre pipeline RAG.

Budget indicatif : 1 000 € à 10 000 €

Publication : 26 mai 2025 à 23h11

Profils recherchés : Développeur spécifique freelance , Développeur Python freelance , Testeur, recetteur freelance

Le profil du client est reservé aux prestataires abonnés

Créer un compte

23 freelances ont répondu à ce projet

14 propositions de devis en moins de 2h

Tristan Hérou Développeur back-end
ldsfrance Agence web
Hugo Battoue Agence développement spécifique
Codes Castle Agence de développement web
Kévin  Guiot Développeur full-stack
EncureIT_Systems Agence IA
Jayan Grondin Développeur web
+16

Montant moyen des devis proposés : 2 450 €

Estimation du délai : 9 jours

Publier un projet similaire

Chaque jour, des centaines de clients utilisent Codeur.com pour trouver un prestataire. Créez votre compte dès maintenant, remplissez votre profil et trouvez de nouveaux clients.

Trouver des nouveaux clients