Les meilleurs développeurs informatique freelances sont sur Codeur.com
Ouvert · 500 € à 1 000 € · 14 offres · 572 vues · 29 interactions
Nous cherchons un développeur Python expérimenté pour construire un pipeline de conversion PDF en Word (.docx) en utilisant uniquement des outils open source.
**Contexte**
Nous avons testé plusieurs approches :
- **StirlingPDF / LibreOffice** : résultats insuffisants — le texte est fragmenté en zones de texte indépendantes, chaque ligne devient un bloc séparé, ce qui rend impossible la sélection de paragraphes complets.
- **API Adobe** (solution payante de référence) : très bon rendu, y compris sur les PDF scannés et ceux contenant des images. C'est la qualité que nous visons.
L'objectif est de reproduire un résultat comparable à Adobe sans recourir à une API payante.
**Ce qu'on attend**
- Reconstruction du flux de texte : les lignes appartenant au même paragraphe doivent être fusionnées en un seul bloc `<w:p>` dans le .docx, pas en zones de texte disjointes.
- Gestion des mises en page complexes : colonnes, tableaux, en-têtes/pieds de page.
Pour ceux qui peuvent aller plus loin:
- Traitement des PDF scannés : intégration d'un moteur OCR (Tesseract, PaddleOCR, etc.) pour les documents image.
- Conservation du formatage : tailles de police, gras/italique, alignements.
- Code Python propre, modulaire, sans dépendance à une API payante.
**Stack de référence open source**
`pdfminer.six`, `pymupdf (fitz)`, `pdfplumber`, `pdf2docx`, `python-docx`, `PaddleOCR` / `Tesseract`, `OpenCV` — toute combinaison pertinente est bienvenue.
**Profil recherché**
- Expérience concrète sur la conversion de documents (pas uniquement de l'extraction de texte brut).
- Bonne compréhension du modèle de mise en page PDF (blocs, lignes, spans) et du format .docx (paragraphes, runs, styles).
- Fournir des exemples de projets similaires ou un prototype sur un PDF de test fourni par nos soins.
**Modalités**
Mission freelance, livraison sous forme de package Python réutilisable
Budget indicatif : 500 € à 1 000 €
Publication : 09 mars 2026 à 16h36
Profils recherchés : Développeur spécifique freelance , Développeur Python freelance
14 freelances ont répondu à ce projet
14 propositions de devis en moins de 2h
Montant moyen des devis proposés : 650 €
Estimation du délai : 4 jours