**CONVERSION PDF** Ce protocole décrit une procédure automatisée pour convertir des fichiers PDF en fichiers TXT en conservant la structure des paragraphes, à l’aide de l’outil `pdftotext` dans un environnement R. **Dépendances** - Outil requis : [Xpdf tools – pdftotext](https://www.xpdfreader.com/download.html) - Système d’exploitation : macOS 1/ Convertir les pdf en txt files en utilisant *pdftotext* in R (permet de garder l’ordre des paragraphes) ########### Convertir PDFs en fichier .txt ############# # À adapter : définir le chemin vers le dossier contenant les fichiers PDF dest <- "chemin/vers/mon/dossier/pdf" # Créer un vecteur de noms de fichiers pdf myfiles \<- list.files(path \= dest, pattern \= "pdf", full.names \= TRUE) myfiles #Convertir chaque fichier pdf en fichier txt lapply(myfiles, function(i) system(paste('"/Applications/xpdf-tools-mac-4.03/bin64/pdftotext"', paste0('"', i, '"')), wait \= FALSE) ) # Vérifier que les fichiers .txt ont été créés list.files(path = dest, pattern = "txt$") # Où sont les fichiers que je viens txt que je viens de générer? dest # dans ce fichier