Les meilleurs développeurs informatique freelances sont sur Codeur.com
Fermé · Moins de 500 € · 17 offres · 1601 vues · 22 interactions
Je suis à la recherche d'une personne spécialisée dans le développement de scripts permettant de collecter via une API, l'intégralité de Wikipédia selon les pays, catégories, sous catégories etc, via deux scripts dont l'un pour la collecte de l'historique; et l'autre pour la mise à jour.
La personne doit élaborer les scripts soient en Json et stocker dans une BDD SQL. Les données collectées doivent se faire en 6 langues, avec les libellées et les codes.
Voici quelques détails supplémentaires ci-dessous. Les spécificités complémentaires seront fournies lors de l'échéance.
- Objectif fonctionnel : collecter automatiquement les contenus encyclopédiques et leurs métadonnées, les relier à des pays et domaines thématiques, puis les exposer via une base structurée et un moteur de recherche interne.
- Couverture : toutes les Wikipedias linguistiques + Wikidata + Wikimedia Commons + métriques de trafic (pageviews).
- Cas d’usage prioritaires : navigation par pays → domaines → catégories ; tableaux consolidés par pays ; analytique (pageviews) et mises à jour incrémentales.
2) Sources & API officielles à utiliser
- MediaWiki Action API
- MediaWiki REST API
- Wikidata API & SPARQL
- Wikimedia Commons API
- Wikimedia Analytics API (AQS)
- EventStreams (SSE)
- Wikimedia SiteMatrix
- Wikimedia Enterprise API (option)
- Autres sources si nécessaire
3) Taxonomie mondiale (catégories & domaines)
- Wikipedia:Contents (thèmes principaux)
- Categories by country / by topic & country
- Profondeur recommandée : 2
- Domaines : Géographie, Gouvernance, Économie, Éducation, Culture, Science, Histoire, Santé
4) Modèle de données
- Tables : lang, country, category, page, page_category, page_country, revision, media, pageviews_daily
- Stockage brut JSONB
- Indexation OpenSearch/Elasticsearch
5) Algorithmes d’ingestion
- Découverte et crawl BFS des catégories
- Rattachement pays via Wikidata (P17, P131, P159, P495)
- Multilingue et dédoublonnage via QID
- Mises à jour incrémentales via EventStreams ou RecentChanges
6) Performance, politesse & robustesse
- User-Agent descriptif
- maxlag sur Action API
- Respect des limites REST (~200 req/s global)
- Cache via ETag / If-Modified-Since
- Backoff exponentiel
7) Schéma d’orchestration
- Queue (RabbitMQ/Kafka)
- Workers idempotents
- Orchestration (Airflow/Dagster)
8) Indexation logique par catégorie et pays
- Vues matérialisées
- Tables de référence domaines → catégories
9) Exposition & API interne
- Endpoints GET /countries/{iso2}/domains
- GET /countries/{iso2}/categories/{family}
- GET /pages/{lang}/{title}
- GET /search?q=...
10) Conformité légale & obligations
- Licence CC BY-SA 4.0 (texte)
- Licence spécifique par média Commons
- Termes d’utilisation Wikimedia
- Vie privée & RGPD
Budget indicatif : Moins de 500 €
Publication : 12 août 2025 à 17h47
Profils recherchés : Développeur spécifique freelance , Expert BDD freelance , Développeur Python freelance , Développeur API freelance
17 freelances ont répondu à ce projet
13 propositions de devis en moins de 2h
Montant moyen des devis proposés : 1 900 €
Estimation du délai : 16 jours