Les meilleurs développeurs PHP freelances sont sur Codeur.com

Classification de documents semi-structurés

 Fermé · 30 à 300 € · 251 vues


Le but du projet est de faire de la classification de documents semi-structurés.
Le langage XML a été conçu donner du sens (de la sémantique) aux informations sur la Toile. Pour
décrire le sens d'un document des éléments (balises) XML sont utilisées comme métadonnées. Une
métadonnée est une donnée servant à définir ou décrire une autre donnée quel que soit son
support (papier ou électronique). Les métadonnées sont à la base des techniques du web
sémantique, de l'étiquetage avec les tags utilisé dans le Web 2.0. Les métadonnées sont ainsi un
élément essentiel des systèmes de gestion de contenu (CMS) en ingénierie des connaissances.
Le système que vous êtes chargé de construire :
• prend en entrée des documents XML avec une structure particulière et à partir de certaines
balises clés,
• détermine dans quelle catégorie il va être stocké.
1) Stockage
Pour chaque ensemble de mots-clés prédéfini, correspondant aux balises recherchées, une
catégorie est créée. Une catégorie correspond à un répertoire qui contient l’ensemble des
fichiers XML de cette catégorie. Un mot-clé peut lui mettre être raffiné par d’autre mots-clés,
donnant ainsi une hiérarchie de mots-clés, produisant une arborescence de répertoires sous
forme physique (correspondant à des catégories, des sous-catégories, des sous‐souscatégories…).
Afin de matérialiser la hiérarchie de mots-clés, une base de données est utilisée. Une table
relationnelle stock un identifiant de mot, le mot-clé, et l’identifiant de son père (s’il en a un),
ce qui permet ainsi reproduire la hiérarchie avec des requêtes récursives sur cette table à
l’aide des identifiants.
La classification des documents XML à l’aide des mots-clés doit reposer sur l’utilisation de
requêtes XPath sur le document. Les mots-clés sont utilisés pour savoir si le document
contient ou ne contient pas le mot; s’il le contient, le système regarde ensuite quels motsclés
de la hiérarchie il vérifie également, et ainsi de suite. Un même document peut être
placé dans plusieurs catégories à partir du moment où plusieurs mots-clés sont trouvés dans
le document.
2) Interface graphique
Le système se compose d’une interface graphique pour permettre :
• de donner le document XML à stocker,
• de manipuler la hiérarchie de mots-clés (ajout, retrait, modification),
• de consulter la hiérarchie de mots-clés avec les documents XML associés.
3) Technique
Ce projet suppose des connaissances en :
• XPath pour trouver les mots dans le document,
• MySQL pour stocker la hiérarchie de mots,
• manipulation de fichiers,
• navigation Web (lien href, ou par contenu caché/affiché).

Budget indicatif : 30 à 300 €

Publication : 14 janvier 2010 à 11h00

Profils recherchés : Développeur PHP freelance , Spécialiste SEM freelance

Le profil du client est reservé aux prestataires abonnés

Créer un compte

Vous avez aussi besoin d'un expert ?

Déposez une annonce en décrivant votre projet et recevez gratuitement des devis en quelques minutes

Déposer une annonce gratuite

Chaque jour, des centaines de clients utilisent Codeur.com pour trouver un prestataire. Créez votre compte dès maintenant, remplissez votre profil et trouvez de nouveaux clients.

Trouver des nouveaux clients