Les meilleurs développeurs PHP freelances sont sur Codeur.com
Fermé · 30 à 300 € · 251 vues
Le but du projet est de faire de la classification de documents semi-structurés.
Le langage XML a été conçu donner du sens (de la sémantique) aux informations sur la Toile. Pour
décrire le sens d'un document des éléments (balises) XML sont utilisées comme métadonnées. Une
métadonnée est une donnée servant à définir ou décrire une autre donnée quel que soit son
support (papier ou électronique). Les métadonnées sont à la base des techniques du web
sémantique, de l'étiquetage avec les tags utilisé dans le Web 2.0. Les métadonnées sont ainsi un
élément essentiel des systèmes de gestion de contenu (CMS) en ingénierie des connaissances.
Le système que vous êtes chargé de construire :
• prend en entrée des documents XML avec une structure particulière et à partir de certaines
balises clés,
• détermine dans quelle catégorie il va être stocké.
1) Stockage
Pour chaque ensemble de mots-clés prédéfini, correspondant aux balises recherchées, une
catégorie est créée. Une catégorie correspond à un répertoire qui contient l’ensemble des
fichiers XML de cette catégorie. Un mot-clé peut lui mettre être raffiné par d’autre mots-clés,
donnant ainsi une hiérarchie de mots-clés, produisant une arborescence de répertoires sous
forme physique (correspondant à des catégories, des sous-catégories, des sousâ€souscatégories…).
Afin de matérialiser la hiérarchie de mots-clés, une base de données est utilisée. Une table
relationnelle stock un identifiant de mot, le mot-clé, et l’identifiant de son père (s’il en a un),
ce qui permet ainsi reproduire la hiérarchie avec des requêtes récursives sur cette table à
l’aide des identifiants.
La classification des documents XML à l’aide des mots-clés doit reposer sur l’utilisation de
requêtes XPath sur le document. Les mots-clés sont utilisés pour savoir si le document
contient ou ne contient pas le mot; s’il le contient, le système regarde ensuite quels motsclés
de la hiérarchie il vérifie également, et ainsi de suite. Un même document peut être
placé dans plusieurs catégories à partir du moment où plusieurs mots-clés sont trouvés dans
le document.
2) Interface graphique
Le système se compose d’une interface graphique pour permettre :
• de donner le document XML à stocker,
• de manipuler la hiérarchie de mots-clés (ajout, retrait, modification),
• de consulter la hiérarchie de mots-clés avec les documents XML associés.
3) Technique
Ce projet suppose des connaissances en :
• XPath pour trouver les mots dans le document,
• MySQL pour stocker la hiérarchie de mots,
• manipulation de fichiers,
• navigation Web (lien href, ou par contenu caché/affiché).
Budget indicatif : 30 à 300 €
Publication : 14 janvier 2010 à 11h00
Profils recherchés : Développeur PHP freelance , Spécialiste SEM freelance
Déposez une annonce en décrivant votre projet et recevez gratuitement des devis en quelques minutes