Corpus source

CFPP2000 

http://cfpp2000.univ-paris3.fr/ 

Le Corpus de Français Parlé Parisien (CFPP2000) est composé d’un ensemble d’interviews conversationnelles sur les quartiers de Paris et de la proche banlieue. Ces interviews conversationnelles sont constituées à partir d’un questionnaire sur la ville et comportent en 2017 plus de 700.000 mots pour environ 50 heures de parole. L’ensemble a été mis à disposition du projet Orfeo mais à une date antérieure, ce qui explique que le volume de données présent soit moins important. Les exemples tirés d’Orfeo et dont la source est le CFPP2000 étiquetés comme provenant du CFPP2000 doivent être accompagnés de la mention de l’article suivant :

Branca-Rosoff S., Fleury S., Lefeuvre F., Pires M., 2012, Discours sur la ville. Présentation du Corpus de Français Parlé Parisien des années 2000 (CFPP2000)

CLAPI    

http://clapi.ish-lyon.cnrs.fr/

CLAPI, Corpus de LAngue Parlée en Interaction, est une banque de données multimédia de corpus vidéos et audios enregistrés en situation naturelle dans des contextes variés :
professionnel, privé, institutionnel, commercial, médical, en situation de classe, …

En raison de contraintes relatives aux droits de diffusion de certaines de ces données et pour répondre au critère de sélection d’interaction entre des locuteurs natifs, seul un sous-ensemble des corpus a été mis à disposition du projet Orféo pour une durée d’environ 17 heures de parole (~ 170 000 mots).

C-ORAL-ROM 

– http://lablita.dit.unifi.it/corpora/descriptions/coralrom/

La ressource multilingue C-ORAL-ROM fournit un ensemble de corpus comparable de langue spontanée des langues romanes principales, à savoir le français, l’italien, le portugais et l’espagnol. La ressource est le résultat du projet C-ORAL-ROM, qui a été entrepris par un consortium européen, coordonné par l’Université de Florence et financé dans le cadre du cinquième programme-cadre de l’UE.

C-ORAL-ROM se compose de 772 textes parlés pour 123 heures de parole. Quatre collections d’enregistrements comparables de sessions de discours spontanées italiennes, françaises, portugaises et espagnoles (environ 300 000 mots pour chaque langue) L’ensemble de la partie française a été mis à disposition du projet Orféo.

CRFP 

http://www.up.univ-mrs.fr/delic/corpus/index.html
Le  Corpus de référence du français parlé,  comporte 440 000 mots, correspondant à  36 heures de parole. Il est  composé de 134 enregistrements recueillis dans une quarantaine de villes différentes et échantillonnés en fonction de 3 situations de parole et de certaines caractéristiques des locuteurs (niveaux d’études, âge, sexe). La totalité du  corpus se présente sous une forme transcrite alignée avec le son. L’ensemble a été mis à disposition du projet Orféo. 

FLEURON 

https://apps.atilf.fr/fleuron/

FLEURON présente des ressources multimédia représentatives des situations auxquelles les étudiants étrangers seront confrontés lors de leur arrivée dans une université française : interactions entre étudiants et personnels administratifs (scolarité, secrétariat, restaurant universitaire, etc.), entre étudiants et personnels des bibliothèques, entre étudiants et enseignants (entretiens, examens oraux, soutenance), des interactions de la vie quotidienne en dehors du campus universitaire (à la banque, à la SCNF, etc.) et des témoignages d’étudiants étrangers. 35.000 mots ont été mis à disposition du projet Orféo pour environ 3 heures de parole.

FRENCH ORAL NARRATIVE      

 http://frenchoralnarrative.qub.ac.uk

Le ‘French Oral Narrative Corpus’ comprend 87 contes d’une variété de types (fantastiques, merveilleux, facétieux etc.), racontés par 18 conteurs et conteuses du Conservatoire de Littérature Orale à Vendôme. Les contes sont transcrits et annotés selon les conventions de la Text Encoding Initiative (TEI), avec des métadonnées sur les conteurs et conteuses et sur les contextes de performance. Le corpus a été subventionné par la Arts and Humanities Research Council (AH/E000649/1) et la British Academy (SG39350). L’ensemble a été mis à disposition du projet Orféo.

OFROM   

  http://www.unine.ch/ofrom

Le Corpus Oral de français de Suisse Romande constitue la première archive comprenant  uniquement  des  enregistrements de français parlé en Suisse romande aligné texte/son. Il contient des entretiens à dominante monologique et des interactions impliquant en général deux participants. La base de données OFROM a été mise en ligne en décembre 2012 ; elle comportait environ 300.000 mots correspondant à plus de 25 heures de parole lorsqu’elle a été mise à disposition du projet Orféo. Elle comporte aujourd’hui un peu moins d’un million de mots (près de 80 heures) impliquant plus de 300 locuteurs.

TCOF

– http://www.cnrtl.fr/corpus/tcof/

Le corpus TCOF comporte deux grandes catégories : des enregistrements de corpus d’interactions entre adultes et enfants et des enregistrements d’interactions entre adultes dans différentes situations de communication (conversation, entretien, récit de vie, réunion de travail, etc.). Cette dernière base est constituée d’environ 300.000 mots pour un total de 23 heures de parole. Nous y avons ajouté des enregistrements provenant de la collection personnelle de J.-M. Debaisieux ainsi que de Sandrine Caddeo. L’ensemble a été mis à disposition du projet Orféo.

TUFS

http://www.coelang.tufs.ac.jp/english/
Center of Corpus-based Linguistics and Language Education
Le corpus de Tokyo University of Foreign Studies  a été constitué dans des universités françaises (Aix- Marseille, Paris, Bordeaux).
Il constitue la partie française d’un corpus d’entretiens multilingues (canadien, espagnol, français, japonais, malaisien, turc) http://www.coelang.tufs.ac.jp/english/language_function.html.

Cette partie présente plus de 750.000 mots pour un total d’environ 54 heures de parole.  L’ensemble a été mis à disposition du projet Orféo.

Valibel

  http://www.uclouvain.be/81834.html

Le centre Valibel – Discours et Variation gère une base de données textuelles comprenant actuellement 22 corpus constitués d’enregistrements de productions orales (1987-1995), transcrits et encodés sur support informatique. Ces corpus représentent 373 heures d’enregistrement auprès de 533 informateurs originaires de Bruxelles et de la Wallonie.  500.000 mots ont été mis à disposition du projet Orféo pour une durée d’environ 43 heures de parole.

ANNODIS

http://redac.univ-tlse2.fr/corpus/annodis

La ressource /est un ensemble diversifié de textes en français enrichis manuellement d’annotations de structures discursives. Elle est le résultat du projet ANNODIS (ANNOtation DIScursive), projet financé par l’ANR. La ressource présente des textes issus de  quatre sources pour un total de total 687 000 mots. : Est Républicain (39 articles, 10 000 mots), Wikipédia (30 articles + 30 extraits, 242 000 mots), Actes du Congrès Mondial de Linguistique Française 2008 (25 articles, 169 000 mots, Rapports de l’Institut Français de Relations Internationales (32 rapports, 266 000 mots).

Le Corpus Chambers-Rostand du français journalistique

http://ota.ox.ac.uk/desc/2491

Le corpus est distribué par the University of Oxford. Il contient 979,831 mots, extraits de 1723 articles à partir de trois journaux quotidiens français :

  • Le Monde (576 articles / 355,046 mots)
  • L’Humanité (576 articles / 367,486 mots)
  • La Dépêche du Midi (570 articles / 257,299 mots)

CoMeRe, corpus de communication médiée par les réseaux. https://corpuscomere.wordpress.com

CoMeRe a, de 2014 à 2016, créé un noyau de corpus de communication médiée par les réseaux (Computer Mediated Communication – CMC) en français. Chaque corpus rassemble un ensemble de conversations intervenant sur la Toile et les réseaux. : communication synchrone ou asynchrone, mono ou multimodaux (éventuellement) : blogues, tweets, SMS / textos, courriels , clavardage, forums, conférence en ligne, mondes synthétiques, etc.Ces corpus et leurs métadonnées ont été structurés suivant des formats standard : TEI (Text Encoding Initiative), CLARIN, OLAC..Les membres du projet CoMeRe ont appartenu au groupe de travail « Nouvelles formes de communication » du consortium Corpus-écrits.


Frantext libre de droit, hors théâtre et poésie

Frantext libre de droit : http://www.cnrtl.fr/corpus/frantext/

Le corpus issu de Frantext libre de droit (mis à disposition par le CNRTL) remplit le rôle du corpus littéraire dans le sous-corpus écrit d’Orfeo. Il comporte 22 oeuvres, (pour un total d’environ 1,8 millions de tokens) s’étendant sur la période 1890 – 1921 et relevant des genres roman ou essai. Chaque oeuvre contient de 18 000 à 191 000 tokens.

Est Républicain

Le corpus Est Républicain (mis à disposition par le CNRTL) est un corpus Presse Quotidienne Régionale (PQR). Il vient compléter le corpus Chambers-Rostand (ci-dessus) pour former le corpus Presse du sous-corpus écrit d’Orfeo. Le corpus Est Républicain correspond à 3 éditions quotidiennes de ce journal, les 19, 20 et 21 avril 2002. La version électronique contient plusieurs rubriques (Nouvelles nationales, nouvelles sportives, international ainsi que les éditions régionales de chacune des régions couvertes par l’Est Républicain, à savoir Bar-Le-Duc, Épinal, Mirecourt, Nancy, etc). Trois jours de ce quotidien sous forme électronique constituent un sous-corpus de  927 035 tokens.

Est Républicain : https://www.ortolang.fr/market/corpora/est_republicain