Le Corpus d'Études du Français Contemporain est le résultat du projet Orféo, il est composé de corpus oraux et écrits. oral : cfpp, clapi, coralrom, crfp, fleuron, frenchoralnarrative, husianycia, ofrom, tcof, tufs, valibel écrit : annodis, chambers-rostand, comere, est-republicain, frantext, scientext
Ces corpus sont décrits sur la page http://www.projet-orfeo.fr/corpus-source/
Les guides d'annotation sont disponibles sur le site du projet Orfeo à l'adresse : http://www.projet-orfeo.fr/guides/ ou dans le dossier documentation sur le dépôt ortolang : * Guide de segmentation * Guide d'annotation morpho-syntaxique (POS) * Guide d'annotation syntaxique
Pour chaque fichier du corpus CEFC on trouve un fichier .xml contenant les métadonnées et un fichier .orfeo contenant les données et les annotations. Les fichiers des corpus oraux sont accompagnés d'un fichier son au format wav.
Les fichiers .orfeo sont des fichiers tsv (tab separated value). Le format est similaire au format CoNLL-U avec 3 colonnes supplémentaires pour les estampilles temporelles et l'identification du locuteur
xml:id
attribute value of the person
element in metadata file)Pour plus de détails voir guideposorfeo.pdf
ADJ
(adjectifs qualificatifs) : méchant, petit, long, gigantesque, drôle, rouge, etc.
ADN
(adverbes de négation) : pas, jamais, nullement, guère, plus, etc.
ADV
(adverbes) : savamment, peut-être, in extremis, très, environ, etc.
CLI
(autres clitiques) : te, lui, -le, -y, en, -leur, nous, etc.
CLN
(clitique de négation) : ne
CLS
(clitiques sujets) : tu, elles, vous, -vous, c’, etc.
COO
(conjonctions de coordination) : et, ou, alias, mais encore, voire, puis, etc.
CSU
(conjonctions de subordination) : au fur et à mesure qu’, alors que, lorsque, etc.
DET
(déterminants) : cette, certains, quelques, un, etc.
INT
(interjections) : hein, ben, allô, pfff, no comment, niark, okidoki, parbleu, etc.
NOM
(noms) : diplodocus, Montastruc-la-Conseillère, topinambour, Google, etc.
NUM
(nombres) : six, treize, milliard, quatorze, mille, billion, dix-sept, quatre-vingt-onze, vingt-cinq, etc. (mais pas soixante et n)
PCT
(signes de ponctuation) : !, ?, !, etc., (, », etc.
PRE
(prépositions) : de, des, nonobstant, parmi, pour cause de, par delà, outre, etc.
PRO
(pronoms) : moi, celles, les tiens, plusieurs, vous-mêmes, nul, pas grand-chose, etc.
PRQ
(pronoms interrogatifs-relatifs) : combien est-ce que, lequel, pourquoi, que, etc.
VNF
(verbes à l'infinitif) : tenir, poindre, jouer, entendre, etc.
VPP
(verbes au participe passé) : tenu, point, joué, entendu, etc.
VPR
(verbes au participe présent) : tenant, poignant, jouant, entendant, etc.
VRB
(verbes à la forme finie) : tiens, poignent, joueraient, entendissions, etc.
X
(mot inconnu, étranger ou tronqué de catégorie indécidable) : El Paìs, fuck you, etc.
Pour plus de détails voir guidedependanceorfeo.pdf
root
(racine)
dep
(dépendant, complément ou ajout)
subj
(sujet)
aux
(auxiliaire)
spe
(spécifieur)
disflink
(segment non analysable)
para
(lien paradigmatique)
mark
(lien marqueur)
periph
(éléments périphériques)
dm
(marqueurs de discours)