Présentation – Corpus d'Etude pour le Français Contemporain (CEFC)

La plate-forme

La plate-forme ORFEO (Outils et Ressources sur le Français Ecrit et Oral) propose un ensemble unique de textes écrits et de transcriptions d’enregistrements en français contemporain ainsi que des outils pour les exploiter, que ce soit dans le cadre de la recherche en linguistique, en traitement automatique des langues, pour l’enseignement ou pour simplement satisfaire sa curiosité à propos du fonctionnement du français contemporain : emploi d’un mot, d’une expression ou d’une forme grammaticale (fréquence, contexte, exemples à l’écrit ou à l’oral, …). L’orientation principale a été néanmoins de se placer du point de vue du linguiste qui veut étudier les formes de l’énoncé et de ses composantes à travers les divers usages de la langue française.

Les partenaires

ORFEO est le résultat d’un projet (ANR 12-CORP-0005) financé par l’Agence Nationale de la Recherche dans le cadre de la campagne Corpus, Données et Outils de la Recherche en Sciences Humaines et Sociales 2011. Le projet est le résultat de la collaboration de 7 laboratoires :

Le LATTICE (UMR 8094) www.lattice.cnrs.fr/ Porteur du projet. Unité Mixte de Recherche sous la triple tutelle du CNRS, de l’Ecole Normale Supérieure et de l’Université Paris 3 Sorbonne nouvelle,

MODYCO (UMR 7114) www.modyco.fr/ Unité Mixte de Recherche du CNRS et de l’Université Paris Ouest Nanterre,

L’ATILF (UMR 7118) www.atilf.fr/ Unité Mixte de Recherche du CNRS et de l’Université de Lorraine,

Le LIF (UMR 6166) www.lif.univ-mrs.fr Unité Mixte de Recherche du CNRS et de l’Université d’Aix Marseille (AMU), et en particulier l´équipe Traitement Automatique du Langage Écrit et Parlé (TALEP),

Le LORIA, (UMR 7503) www.loria.fr/, Unité Mixte de Recherche commune au CNRS, à l’INPL, à l’INRIA, à l’UHP et à l’Université de Lorraine,

CLLE (UMR 5263) http://clle.univ-tlse2.fr Unité Mixte de Recherche du CNRS et de l’Université Toulouse Jean Jaurès (UT2J), et en particulier l’Equipe de Recherche en Syntaxe et Sémantique (ERSS)

ICAR, (UMR 5191), icar.univ-lyon2.fr/ Unité Mixte de Recherche sous la triple tutelle du CNRS, de l’Université Lumière Lyon 2, et de ENS de Lyon, IFE.

Les ressources

Le Corpus d’Etude pour le Français Contemporain (C.E.F.C.) compte 10 millions de mots :

Un corpus Oral de 4 millions de mots constitué à partir de 14 corpus sources contenant les transcriptions alignées texte/parole. Le corpus rassemble sur un seul site et sous un seul format des données enregistrées dont la transcription a été soigneusement vérifiée. Il s’agit d’enregistrements récents de locuteurs adultes relevant de situations de parole diverses : conversation, interaction avec des services, prise de parole, réunion, etc. Le C.E.F.C. comporte plus de 2500 locuteurs différents provenant de l’ensemble des régions de France ainsi que de Suisse et de Belgique.

Un corpus écrit de 6 millions de mots constitué à partir de 6 corpus sources de textes extraits de la littérature, de la presse quotidienne ou régionale, de textes scientifiques et d’écrits non professionnels (SMS, Blog).

L’hypothèse centrale, fondée sur une expérience de la linguistique de corpus par des promoteurs qui la pratiquent depuis plus de quarante ans, est que les formes de l’énoncé se diversifient d’abord en fonction du degré de spontanéité des productions du locuteur, que ce soit à l’écrit ou à l’oral. A partir d’une base commune à tous les locuteurs élaborée dans la phase d’acquisition en milieu naturel de la langue maternelle, ces locuteurs sont exposés aux diverses « traditions » oratoires ou discursives à l’œuvre dans leur communauté linguistique. De cette interaction sont issues les diverses variétés de français dont le C.E.F.C. voudrait être le reflet. Cette hypothèse est rendue opérationnelle par la mise à disposition d’un riche appareil de métadonnées, au moyen duquel l ‘utilisateur peut comparer des variétés en construisant lui-même des sous-corpus caractérisées par des paramètres interactionnels, géographiques, stylistiques et sociaux.

L’ensemble (textes écrits et transcriptions) a été annoté semi-automatiquement en lemmes, catégories grammaticales (nom, verbe, adjectif, etc.) et fonctions syntaxiques. Les enregistrements audio sont alignés avec le texte au niveau du mot et du phonème. Plusieurs formats sonores sont proposés selon la qualité et le temps de téléchargement. L’ensemble des données est en accès libre et téléchargeable.

La ressource peut être exploitée en ligne au moyen des outils inclus dans la plate-forme ou être téléchargée pour traitement par des outils personnels. Des guides exposant les principes de segmentation et d’annotation accompagnent la ressource.

L’exploitation des ressources

ORFEO facilite les types essentiels de pratiques à l’œuvre dans la linguistique de corpus :

–La lecture cursive d’un grand corpus. Cette pratique issue de la tradition philologique demeure un outil heuristique très utile. Le lecteur des textes bruts peut en effet découvrir au fil de la lecture des formes dont il ne soupçonnait pas l’existence et qu’il pourra étudier en détail une fois repérées avec les outils de recherche de patrons syntaxiques. Soulignons que, pour l’oral, l’alignement son-transcription permet de distinguer finement entre plusieurs interprétations d’une même séquence segmentale.

–L’exploitation d’un corpus annoté au moyen d’outils de recherche de structures annotées répondant à des patrons. Cette exploitation peut se faire, nous le rappelons, soit en téléchargeant le corpus brut et en utilisant ses propres outils d’annotation et de recherche, soit en utilisant les outils présents sur la plate-forme.

Les outils

Deux outils d’exploitation sont disponibles pour deux types de recherche :

Une « recherche simple » dans les corpus par concordancier à partir d’une chaîne de caractères (mot ou expression). La requête peut porter sur un corpus spécifique, sur l’ensemble des corpus, sur une sélection de données à partir des métadonnées en fonction du type de medium (écrit, oral) ou du type de texte (presse ou littérature, conversation ou monologue). Pour l’oral, il est possible d’ajouter des critères de provenance géographique, d’âge ou de nombre d’intervenants.

Une « recherche avancée » qui peut porter sur :

Le lemme (toutes les formes variables d’un mot)
La catégorie grammaticale (nom, verbe, adjectif, etc.)
La fonction syntaxique (complément, sujet, etc.)