Les meilleurs développeurs Java freelances sont sur Codeur.com
Fermé·Moins de 500 €·5 offres·1750 vues·12 interactions
Le but du programme est de copier une partie spécifique du texte d’un fichier .PDF et de la coller dans un fichier .TXT.
Les fichiers .PDF seront toujours des articles scientifiques qui ont une organisation similaire les uns par rapport aux autres. Voir le dossier « Exemples_PDF_et_extraction ».
Le programme devra récupérer le texte principal de l’article sans la partie, « Experimental », « Methods », « Materials » ou « Materials & Methods ».
Le texte principal commence toujours après le résumé de l’article qui peut être titré « Abstract », « Summary » ou simplement être en gras. Toute la partie avant le texte principal ne doit pas être récupérée (Titre de l’article, liste des auteurs, coordonnées, résumée, etc.).
Au sein du texte principal, le programme NE devra PAS récupérer les tableaux, la description des tableaux, les figures, la description des figures, les pieds de page, les hauts de page, etc. : d’une manière générale, tout texte dont la taille de police est inférieure à celle du texte principal.
Le programme ne devra pas non plus récupérer la partie « References », « Acknowledgments », « Author contributions », « Supplemental information », « Additional information », « Competing financial interests », et tout texte après la partie « References ».
Je pense que la meilleure option pour ce projet est de combiner une analyse du format de la police (taille, mis en gras, etc.) avec une reconnaissance de texte. Donc le programme devrait passer par l’éditeur d’acrobate ou convertir d’abord le PDF en .docx ou .htlm (ou autre chose) pour avoir accès au format du texte pour ensuite extraire l’information voulu dans un fichier .txt.
Vous trouverez dans le dossier « Exemples_PDF_et_extraction » des fichiers PDF types et ce que devrait donner l’extraction pour chacun de ces fichiers à titre d’exemple.
[URL visible pour les membres Pro]
L’idéal serait que le programme aille chercher les PDF dans un dossier spécifique et crée les fichiers .TXT correspondant dans un autre.
Merci pour vos propositions !
Budget indicatif : Moins de 500 €
Publication : 31 mai 2017 à 20h40
Profils recherchés : Développeur Java freelance, Développeur C++ freelance, Développeur PHP freelance, Développeur Perl freelance, Développeur Python freelance
5 freelances ont répondu à ce projet
4 propositions de devis en moins de 2h
Montant moyen des devis proposés : 450 €
Estimation du délai : 5 jours
Votre navigateur Web n’est plus à jour. Il ne permet pas d’afficher correctement le site Codeur.com.
Nous vous invitons à mettre à jour votre navigateur ou à utiliser un autre navigateur plus récent.