Les meilleurs développeurs C++ freelances sont sur Codeur.com

Recherche de chaines de caractères dans un fichier

 Terminé·300 à 800 €·9 offres·1218 vues


Bonjour.

Je cherche a faire réaliser un programme dont la fonction est de déterminer la (ou les) chaines de caractère les plus couramment rencontrées dans un fichier selon 2 variables (statistique + catégorie).
L'analyse doit porter sur un fichier csv, txt...(a vous de voir ce que vous préférez) susceptible de contenir plusieurs millions de lignes.

Exemple: (formatage a convenir mais dans ce cas: ligne;catégorie;)
Ligne 50 caractères max.
Catégorie: 50 caractères max.

Extrait fichier csv:

chien des bois;1;
fruit des bois;1;
user subroutines;3;
reference manual;4;
reviser la voiture;1;
couper des bois;2;

1) L'utilisateur sélectionne le fichier à traiter.
2) L'utilisateur sélectionne la catégorie qu'il souhaite traiter
3) L'utilisateur choisi la statistique de la (ou des) chaines de caractères qu'il souhaite avoir.

Dans mon cas:
Après sélection du fichier, je choisi dans un menu déroulant (ou champ libre) la catégorie 1.
J'indique dans un autre champ que je souhaite une statistique de 90 %.

Ce qui veut dire en français: Je recherche les chaines de caractère que la catégorie 1 possède à au moins 90 % sur l'ensemble du fichier. (autrement dit que toutes les autres catégories se partagent juste 10 %) --> Soit le ratio (nbr de fois ou la chaine existe dans la catégorie 1/nombre de fois ou elle existe dans le fichier total)

Dans notre cas, les résultats renvoyés devraient être:
(c'est la que la vrai difficulté va être comprise je pense)

- "chien des bois" (on parle de chaine, pas de mots)
- "chien des boi"
- "chien des bo"
- "chien des b"
- "chien des "
- "chien des"
- "chien de"
- "chien d"
- "chien "
- "chien"
- "chie"
- "chi"
- "ien des bois"
- "en des bois"
- "n des bois"
- "hien "
- "hien"
- "hie"
- ....
- ....

Ceux la ne répondant pas aux conditions définies (car présent dans 30 % des autres cat.):

- " des bois"
- "des bois"
- "es bois"
- "s bois"
- ...

(pas simple car il y a x^2-((x^2-x)/2) chaines de caractères ordonnées possibles par ligne, x étant le nombre de lettres de la chaine.

Les résultats doivent sortir dans un fichier sous le format csv UTF8:
xxxxxxxxxx;
xxxx;
xxxxxxx;
xxxxx;
.....

Je ne connais pas les durées de traitement possibles mais si ça peut durer plusieurs heures ou jours, je suis preneur d'un compteur estimatif du temps restant ou d'une progress bar.

Contrainte technique:
- Utilisation max du logiciel 6 Go de RAM
- Utilisation multi proc souhaitée (si algo lourd)

Merci pour vos propositions, je suis à vos dispositions pour d'éventuelles questions.

PJ: Interface graphique proposée

interface.png

Budget indicatif : 300 à 800 €

Publication : 01 novembre 2013 à 14h10

Profils recherchés : Développeur C++ freelance, Expert BDD freelance, Expert Matlab freelance

Le profil du client est reservé aux prestataires abonnés

Créer un compte

9 freelances ont répondu à ce projet

4 propositions de devis en moins de 2h

F
+2

Montant moyen des devis proposés : 500 €

Estimation du délai : 5 jours

Publier un projet similaire

Projet réalisé par henri_b

henri_b
Paris, 75

Chaque jour, des centaines de clients utilisent Codeur.com pour trouver un prestataire. Créez votre compte dès maintenant, remplissez votre profil et trouvez de nouveaux clients.

Trouver des nouveaux clients

Votre navigateur Web n’est plus à jour. Il ne permet pas d’afficher correctement le site Codeur.com.
Nous vous invitons à mettre à jour votre navigateur ou à utiliser un autre navigateur plus récent.