Les meilleurs développeurs informatique freelances sont sur Codeur.com
Fermé · 1 000 € à 10 000 € · 23 offres · 1177 vues · 43 interactions
Nous recherchons un·e freelance expérimenté·e pour transformer nos scripts existants en un package Python propre et robuste capable de générer automatiquement le sommaire (table des matières) de PDF très variés.
Objectif
Combiner plusieurs approches — règles déterministes (expressions régulières, heuristiques), détection de motifs typographiques et, si pertinent, modèles légers de vision ou de NLP — afin d’obtenir un sommaire le plus exhaustif possible tout en gardant un coût de calcul minimal. Le résultat devra s’intégrer directement dans notre pipeline RAG (Retrieval-Augmented Generation).
Missions
Audit & refactor
Cartographier les scripts actuels, supprimer les redondances.
Structurer un package modulaire (pyproject.toml, tests, docstrings).
Implémentation des méthodes
Moteur de règles (regex, hiérarchie de styles, numérotation).
Détection de patterns (zones de texte, indentation, fontes) avec pdfminer.six / pdfplumber / PyMuPDF ou équivalent.
Optionnel : intégration d’une librairie layout légère (Layout-Parser, Tesseract OCR) pour les PDF scannés.
Gestion d’erreurs & robustesse
Détecter et loguer les anomalies (pages illisibles, caractères spéciaux).
Fallbacks automatiques entre méthodes déterministes et heuristiques.
Qualité & performance
Benchmarks de précision vs. temps d’exécution.
Tests PyTest, pipeline GitHub Actions (lint + tests).
Sortie standardisée (JSON) prête à être injectée dans notre pipeline RAG.
Budget indicatif : 1 000 € à 10 000 €
Publication : 26 mai 2025 à 23h11
Profils recherchés : Développeur spécifique freelance , Développeur Python freelance , Testeur, recetteur freelance
23 freelances ont répondu à ce projet
14 propositions de devis en moins de 2h
Montant moyen des devis proposés : 2 450 €
Estimation du délai : 9 jours