Les meilleurs administrateurs système freelances sont sur Codeur.com

Déploiement OCR open source PaddleOCR (équivalent Azure OCR layout)

 Ouvert · 500 € à 1 000 € · 14 offres · 3188 vues · 14 interactions


Nous recherchons un prestataire expérimenté en OCR / Document AI pour mettre en place une solution open source équivalente à Azure OCR / Azure Document Intelligence (Layout), basée sur PaddleOCR (PP-Structure), et déployée sur infrastructure OVH.

Objectif
Déployer une solution OCR exposée via une API HTTPS, dont le comportement et le format de sortie sont compatibles avec Azure OCR, afin de permettre un remplacement transparent sans modification du code applicatif existant.

La performance peut différer d’Azure, mais la structure des résultats, les champs JSON et la hiérarchie (pages, lignes, mots, tables, cellules, bounding boxes) doivent être strictement alignés avec Azure OCR.

Périmètre de la mission

1. Installation et infrastructure
Installation de PaddleOCR et PP-Structure sur une VM Linux OVH.
VM CPU ou GPU selon recommandations du prestataire.
Environnement Dockerisé (Docker / Docker Compose).
Recommandations claires sur l’usage ou non d’un GPU et le dimensionnement de la VM.

2. Pipeline OCR
OCR texte avec bounding boxes.
Analyse de layout (pages, lignes, mots).
Extraction de tables avec tables, cellules, indices ligne / colonne, bounding boxes ou polygones.
Support des PDF natifs, PDF scannés et documents multi-pages.

3. API REST HTTPS
Exposition d’une API HTTPS uniquement.
Upload de PDF ou images.
Traitement synchrone ou asynchrone.
Retour JSON structuré.
Format de réponse compatible Azure OCR (mêmes clés, même organisation des objets, même logique de coordonnées).

L’objectif est qu’un client consommant Azure OCR puisse consommer cette API (presque) sans aucun changement de code.

4. Sécurité et robustesse
HTTPS avec certificat TLS (Let’s Encrypt ou équivalent).
Reverse proxy (Nginx, Traefik ou équivalent).
Limitation de taille des fichiers, timeouts.
Gestion des erreurs HTTP (400 / 422 / 500).
Logs exploitables.

Livrables attendus
Environnement Docker / Docker Compose.
Code de l’API (FastAPI ou équivalent).
Documentation d’installation et d’exploitation.
Documentation de correspondance Azure OCR ↔ PaddleOCR.
Exemples d’inputs / outputs JSON.
Jeux de tests de validation.

Profil recherché
Très bonne maîtrise de PaddleOCR / PP-Structure.
Expérience en OCR, layout analysis, extraction de tables.
Expérience en déploiement sur VM Linux (OVH ou équivalent).
Maîtrise de Python, API REST, Docker.
Une expérience avec Azure OCR / Document Intelligence est un plus.

Budget indicatif : 500 € à 1 000 €

Publication : 25 janvier 2026 à 12h02

Profils recherchés : Sysadmin freelance , Développeur linux freelance , Développeur Python freelance , Développeur Docker freelance , Développeur API freelance

Le profil du client est reservé aux prestataires abonnés

Créer un compte

14 freelances ont répondu à ce projet

9 propositions de devis en moins de 2h

Codes Castle Agence de développement web
Kévin  Guiot Développeur full-stack
genialpro Agence Machine Learning
Akrem Baroudi Sysadmin
Viking Production Agence web
Eric-Torak Développeur full-stack
Julien Thomas Agence web
+7

Montant moyen des devis proposés : 1 400 €

Estimation du délai : 3 jours

Publier un projet similaire

Chaque jour, des centaines de clients utilisent Codeur.com pour trouver un prestataire. Créez votre compte dès maintenant, remplissez votre profil et trouvez de nouveaux clients.

Trouver des nouveaux clients