Les meilleurs développeurs web freelances sont sur Codeur.com

Scraping / parsing d'urls pour en extraire la base

 Fermé·30 à 300 €·2 offres·882 vues·1 interaction


Bonjour,

J'ai un système pour parser des urls que ne me satisfait pas ou plus.. Dès lors, je souhaite changer mon système par quelque chose de plus performant, léger et rapide.

Il s'agirait de créer un formulaire avec un champs pour y ajouter une url à choix et ensuite y afficher ces informations ci-dessous (généralement il s'agira de l'url principale d'un site, la home page quoi..)

#Url complète et décomposée

- url complète soumise
- url absolue ou de redirection (celle qui fera défaut pour scraper)
- tenir compte de l'url ssl => https:

# Décomposer en 3 parties l'url => [http://] => [www] => [domaine.tld]
#Le titre du site (tenir compte de l'encodage)
#La description du site (tenir compte de l'encodage)
#Les mots clefs (tenir compte de l'encodage)
#Le texte html de la page [body plaintext] (tenir compte de l'encodage) minimum 200 caractères et maximum 6000 caractères à extraire.
#Le status de l'url (code 500, 200, 301etc.. – code http)
#Définir la langue du site pour scraper la version FR si plusieurs langues à choix
#Récupérer l'adresse (url) du favicon (pas toujours à la même place..)
#Récupérer le charset1 (du style ISO-8859-1…)
#Récupérer le charset2 de ce genre (extraction des éléments)

- HTTP/1.1 500 Internal Server Error
Server: nginx
Date: Thu, 10 Sep 2015 10:03:48 GMT
Content-Type: text/html
Content-Length: 0
Connection: keep-alive
X-Powered-By: PleskLin

Et voilà….

Conditions :
L'affichage des résultats ne doit pas excéder 10 secondes, dans tous les cas, quelque chose doit s'afficher ou tout au moins un message d'erreur à choix. (Car par la suite je pourrais en scaper 100 urls à la suite pour mettre à jours mes infos de ma bd, j'utilise un cron..)

Outils :
Je ne vous cache pas que j'utilisais la classe Simple Html Dom ([URL visible pour les membres Pro]) et du curl mais comme je suis un touriste de la prog.. je ne sais pas tout utiliser tout ceci convenablement et mes bouts de scripts récupérés par ici et par là, font que je ne suis pas satisfait du résultat, j'ai des messages d'erreur avec curl, des temps d'attentes trop long dans l'analyse d'url des blocages etc… alors que je sais qu'on peut récupérer ces infos sans être bloqués. Il faudrait pouvoir alterner les solutions de scraping selon les messages d'erreurs..

Divers :
En finalité , je dois pouvoir ajouter ces résultats dans ma base de données mysql (ça je m'en occuperais par la suite) alors que ce soit codé avec du curl, php ou autre je suis open pour autant que je puisse récupérer les valeurs de cette page pour les ajouter dans ma bd (le mieux en php..)

Pas de mise en page, de design et autres à faire, juste un tableau css avec formulaire pour afficher les résultats dans des imputs, texarea etc.. J'ai quelques url pour tester à la fin (redirection, temps de charge trop long, blocage de récupération etc..)

Voili voilà pour les infos…
Merci pour votre retour si vous êtes intéressé et avez un petit moment pour ce petit projet..

Mes cordiales salutations
Yule

Budget indicatif : 30 à 300 €

Publication : 10 septembre 2015 à 10h38

Profils recherchés : Développeur de plugin freelance, Développeur PHP freelance

Le profil du client est reservé aux prestataires abonnés

Créer un compte

2 freelances ont répondu à ce projet

2 propositions de devis en moins de 2h

Publier un projet similaire

Chaque jour, des centaines de clients utilisent Codeur.com pour trouver un prestataire. Créez votre compte dès maintenant, remplissez votre profil et trouvez de nouveaux clients.

Trouver des nouveaux clients

Votre navigateur Web n’est plus à jour. Il ne permet pas d’afficher correctement le site Codeur.com.
Nous vous invitons à mettre à jour votre navigateur ou à utiliser un autre navigateur plus récent.