Copie de texte d'un fichier .pdf vers fichier .txt

Fermé · Moins de 500 € · 5 offres · 1837 vues · 12 interactions

Faire une offre Publier un projet similaire

Le but du programme est de copier une partie spécifique du texte d’un fichier .PDF et de la coller dans un fichier .TXT.

Les fichiers .PDF seront toujours des articles scientifiques qui ont une organisation similaire les uns par rapport aux autres. Voir le dossier « Exemples_PDF_et_extraction ».

Le programme devra récupérer le texte principal de l’article sans la partie, « Experimental », « Methods », « Materials » ou « Materials & Methods ».

Le texte principal commence toujours après le résumé de l’article qui peut être titré « Abstract », « Summary » ou simplement être en gras. Toute la partie avant le texte principal ne doit pas être récupérée (Titre de l’article, liste des auteurs, coordonnées, résumée, etc.).

Au sein du texte principal, le programme NE devra PAS récupérer les tableaux, la description des tableaux, les figures, la description des figures, les pieds de page, les hauts de page, etc. : d’une manière générale, tout texte dont la taille de police est inférieure à celle du texte principal.

Le programme ne devra pas non plus récupérer la partie « References », « Acknowledgments », « Author contributions », « Supplemental information », « Additional information », « Competing ﬁnancial interests », et tout texte après la partie « References ».

Je pense que la meilleure option pour ce projet est de combiner une analyse du format de la police (taille, mis en gras, etc.) avec une reconnaissance de texte. Donc le programme devrait passer par l’éditeur d’acrobate ou convertir d’abord le PDF en .docx ou .htlm (ou autre chose) pour avoir accès au format du texte pour ensuite extraire l’information voulu dans un fichier .txt.

Vous trouverez dans le dossier « Exemples_PDF_et_extraction » des fichiers PDF types et ce que devrait donner l’extraction pour chacun de ces fichiers à titre d’exemple.

[URL visible pour les membres Pro]

L’idéal serait que le programme aille chercher les PDF dans un dossier spécifique et crée les fichiers .TXT correspondant dans un autre.

Merci pour vos propositions !