Un corpus d’entrainement de 172 000 mots annotés manuellement a été constitué à partir d’extraits représentant l’essentiel des genres présents dans le corpus. Sous sa forme actuelle, le corpus d’entrainement représente une étape intermédiaire. Il est destiné à être enrichi à la faveur de nouveaux projets de linguistique de corpus. Ce corpus est téléchargeable à l’adresse suivante :
http://www.ortolang.fr/market/corpora/cefc-gold