Les meilleurs développeurs Java freelances sont sur Codeur.com

Copie de texte d'un fichier .pdf vers fichier .txt

 Fermé·Moins de 500 €·5 offres·1750 vues·12 interactions


Le but du programme est de copier une partie spécifique du texte d’un fichier .PDF et de la coller dans un fichier .TXT.

Les fichiers .PDF seront toujours des articles scientifiques qui ont une organisation similaire les uns par rapport aux autres. Voir le dossier « Exemples_PDF_et_extraction ».

Le programme devra récupérer le texte principal de l’article sans la partie, « Experimental », « Methods », « Materials » ou « Materials & Methods ».

Le texte principal commence toujours après le résumé de l’article qui peut être titré « Abstract », « Summary » ou simplement être en gras. Toute la partie avant le texte principal ne doit pas être récupérée (Titre de l’article, liste des auteurs, coordonnées, résumée, etc.).

Au sein du texte principal, le programme NE devra PAS récupérer les tableaux, la description des tableaux, les figures, la description des figures, les pieds de page, les hauts de page, etc. : d’une manière générale, tout texte dont la taille de police est inférieure à celle du texte principal.

Le programme ne devra pas non plus récupérer la partie « References », « Acknowledgments », « Author contributions », « Supplemental information », « Additional information », « Competing financial interests », et tout texte après la partie « References ».

Je pense que la meilleure option pour ce projet est de combiner une analyse du format de la police (taille, mis en gras, etc.) avec une reconnaissance de texte. Donc le programme devrait passer par l’éditeur d’acrobate ou convertir d’abord le PDF en .docx ou .htlm (ou autre chose) pour avoir accès au format du texte pour ensuite extraire l’information voulu dans un fichier .txt.

Vous trouverez dans le dossier « Exemples_PDF_et_extraction » des fichiers PDF types et ce que devrait donner l’extraction pour chacun de ces fichiers à titre d’exemple.

[URL visible pour les membres Pro]

L’idéal serait que le programme aille chercher les PDF dans un dossier spécifique et crée les fichiers .TXT correspondant dans un autre.

Merci pour vos propositions !

Budget indicatif : Moins de 500 €

Publication : 31 mai 2017 à 20h40

Profils recherchés : Développeur Java freelance, Développeur C++ freelance, Développeur PHP freelance, Développeur Perl freelance, Développeur Python freelance

Le profil du client est reservé aux prestataires abonnés

Créer un compte

5 freelances ont répondu à ce projet

4 propositions de devis en moins de 2h

Montant moyen des devis proposés : 450 €

Estimation du délai : 5 jours

Publier un projet similaire

Chaque jour, des centaines de clients utilisent Codeur.com pour trouver un prestataire. Créez votre compte dès maintenant, remplissez votre profil et trouvez de nouveaux clients.

Trouver des nouveaux clients

Votre navigateur Web n’est plus à jour. Il ne permet pas d’afficher correctement le site Codeur.com.
Nous vous invitons à mettre à jour votre navigateur ou à utiliser un autre navigateur plus récent.