Python Extraction de sommaire PDF (règles & détection de patterns)

Fermé · 1 000 € à 10 000 € · 23 offres · 1182 vues · 43 interactions

Faire une offre Publier un projet similaire

Nous recherchons un·e freelance expérimenté·e pour transformer nos scripts existants en un package Python propre et robuste capable de générer automatiquement le sommaire (table des matières) de PDF très variés.
Objectif

Combiner plusieurs approches — règles déterministes (expressions régulières, heuristiques), détection de motifs typographiques et, si pertinent, modèles légers de vision ou de NLP — afin d’obtenir un sommaire le plus exhaustif possible tout en gardant un coût de calcul minimal. Le résultat devra s’intégrer directement dans notre pipeline RAG (Retrieval-Augmented Generation).
Missions

Audit & refactor

Cartographier les scripts actuels, supprimer les redondances.

Structurer un package modulaire (pyproject.toml, tests, docstrings).

Implémentation des méthodes

Moteur de règles (regex, hiérarchie de styles, numérotation).

Détection de patterns (zones de texte, indentation, fontes) avec pdfminer.six / pdfplumber / PyMuPDF ou équivalent.

Optionnel : intégration d’une librairie layout légère (Layout-Parser, Tesseract OCR) pour les PDF scannés.

Gestion d’erreurs & robustesse

Détecter et loguer les anomalies (pages illisibles, caractères spéciaux).

Fallbacks automatiques entre méthodes déterministes et heuristiques.

Qualité & performance

Benchmarks de précision vs. temps d’exécution.

Tests PyTest, pipeline GitHub Actions (lint + tests).

Sortie standardisée (JSON) prête à être injectée dans notre pipeline RAG.