**CONVERSION PDF**

Ce protocole décrit une procédure automatisée pour convertir des fichiers PDF en fichiers TXT en conservant la structure des paragraphes, à l’aide de l’outil `pdftotext` dans un environnement R.

**Dépendances**
- Outil requis : [Xpdf tools – pdftotext](https://www.xpdfreader.com/download.html)
- Système d’exploitation : macOS

1/ Convertir les pdf en txt files en utilisant *pdftotext* in R (permet de garder l’ordre des paragraphes)

########### Convertir PDFs en fichier .txt #############

# À adapter : définir le chemin vers le dossier contenant les fichiers PDF
dest <- "chemin/vers/mon/dossier/pdf"

# Créer un vecteur de noms de fichiers pdf
myfiles \<- list.files(path \= dest, pattern \= "pdf",  full.names \= TRUE)  
myfiles

#Convertir chaque fichier pdf en fichier txt  
lapply(myfiles, function(i) system(paste('"/Applications/xpdf-tools-mac-4.03/bin64/pdftotext"', paste0('"', i, '"')), wait \= FALSE) )

# Vérifier que les fichiers .txt ont été créés
list.files(path = dest, pattern = "txt$")

# Où sont les fichiers que je viens txt que je viens de générer?  
dest # dans ce fichier

