Les meilleurs administrateurs système freelances sont sur Codeur.com
Ouvert · 500 € à 1 000 € · 14 offres · 3188 vues · 14 interactions
Nous recherchons un prestataire expérimenté en OCR / Document AI pour mettre en place une solution open source équivalente à Azure OCR / Azure Document Intelligence (Layout), basée sur PaddleOCR (PP-Structure), et déployée sur infrastructure OVH.
Objectif
Déployer une solution OCR exposée via une API HTTPS, dont le comportement et le format de sortie sont compatibles avec Azure OCR, afin de permettre un remplacement transparent sans modification du code applicatif existant.
La performance peut différer d’Azure, mais la structure des résultats, les champs JSON et la hiérarchie (pages, lignes, mots, tables, cellules, bounding boxes) doivent être strictement alignés avec Azure OCR.
Périmètre de la mission
1. Installation et infrastructure
Installation de PaddleOCR et PP-Structure sur une VM Linux OVH.
VM CPU ou GPU selon recommandations du prestataire.
Environnement Dockerisé (Docker / Docker Compose).
Recommandations claires sur l’usage ou non d’un GPU et le dimensionnement de la VM.
2. Pipeline OCR
OCR texte avec bounding boxes.
Analyse de layout (pages, lignes, mots).
Extraction de tables avec tables, cellules, indices ligne / colonne, bounding boxes ou polygones.
Support des PDF natifs, PDF scannés et documents multi-pages.
3. API REST HTTPS
Exposition d’une API HTTPS uniquement.
Upload de PDF ou images.
Traitement synchrone ou asynchrone.
Retour JSON structuré.
Format de réponse compatible Azure OCR (mêmes clés, même organisation des objets, même logique de coordonnées).
L’objectif est qu’un client consommant Azure OCR puisse consommer cette API (presque) sans aucun changement de code.
4. Sécurité et robustesse
HTTPS avec certificat TLS (Let’s Encrypt ou équivalent).
Reverse proxy (Nginx, Traefik ou équivalent).
Limitation de taille des fichiers, timeouts.
Gestion des erreurs HTTP (400 / 422 / 500).
Logs exploitables.
Livrables attendus
Environnement Docker / Docker Compose.
Code de l’API (FastAPI ou équivalent).
Documentation d’installation et d’exploitation.
Documentation de correspondance Azure OCR ↔ PaddleOCR.
Exemples d’inputs / outputs JSON.
Jeux de tests de validation.
Profil recherché
Très bonne maîtrise de PaddleOCR / PP-Structure.
Expérience en OCR, layout analysis, extraction de tables.
Expérience en déploiement sur VM Linux (OVH ou équivalent).
Maîtrise de Python, API REST, Docker.
Une expérience avec Azure OCR / Document Intelligence est un plus.
Budget indicatif : 500 € à 1 000 €
Publication : 25 janvier 2026 à 12h02
Profils recherchés : Sysadmin freelance , Développeur linux freelance , Développeur Python freelance , Développeur Docker freelance , Développeur API freelance
14 freelances ont répondu à ce projet
9 propositions de devis en moins de 2h
Montant moyen des devis proposés : 1 400 €
Estimation du délai : 3 jours