Corpus

CFPP2000  – http://cfpp2000.univ-paris3.fr/ 

Le Corpus de Français Parlé Parisien (CFPP2000) est composé d’un ensemble d’interviews sur les quartiers de Paris et de la proche banlieue.  Il est constitué d’entretiens à partir d’un questionnaire sur la ville et comporte plus de 700.000 mots pour environ 40 heures de parole. L’ensemble a été mis à disposition du projet Orféo.

Discours sur la ville. Présentation du Corpus de Français Parlé Parisien des années 2000 (CFPP2000) Branca-Rosoff S., Fleury S., Lefeuvre F., Pires M., 2012,

CLAPI    http://clapi.ish-lyon.cnrs.fr/

CLAPI permet d’accéder à une quarantaine de corpus oraux d’interactions sociales dans différents contextes : professionnel, privé, institutionnel, commercial, médical, en situation de classe, … 60.000 mots ont été mis à disposition du projet Orféo pour une durée d’environ 3 heures de parole.

C-ORAL-ROM  – http://lablita.dit.unifi.it/corpora/descriptions/coralrom/

C-ORAL-ROM est un corpus multilingue de parole spontanée dans quatre langues romanes : français, italien, portugais, espagnol. La partie française est constituée de 300.000 mots pour environ 22 heures de parole.  L’ensemble  se présente sous une forme transcrite alignée avec le son. L’échantillonnage des données est basé sur les types de situations d’interaction. L’ensemble a été mis à disposition du projet Orféo.

The C-ORAL-ROM CORPUSA Multilingual Resource of Spontaneous Speech for Romance Languages. Emanuela Cresti, Fernanda Bacelar do Nascimento , Antonio Moreno Sandoval , JeanVeronis , Philippe Martin , Kalid Choukri

CRFP  – http://www.up.univ-mrs.fr/delic/corpus/index.html   

Le  Corpus de référence du français parlé,  comporte 440 000 mots, correspondant à  35 heures de parole. Il est  composé de 134 enregistrements échantillonnés en fonction de plusieurs  situations de parole et de niveaux d’études des locuteurs. La totalité du  corpus se présente sous une forme transcrite alignée avec le son. L’ensemble a été mis à disposition du projet Orféo. 

« Autour du Corpus de référence du français parlé »  Recherches sur le français parlé n° 18, Équipe Delic, 2004, Publications de l’université de Provence, 265 p.

FLEURON  – https://apps.atilf.fr/fleuron2/

FLEURON présente des ressources représentatives des situations auxquelles les étudiants seront confrontés lors de leur arrivée dans une université française : interactions entre étudiants et personnels administratifs (scolarité, secrétariat),  entre étudiants et personnels des bibliothèques, entre étudiants et enseignants (entretiens, examens oraux, soutenance) et  des interactions de la vie quotidienne en dehors du campus universitaire.  35.000 mots ont été mis à disposition du projet Orféo pour environ 3 heures de parole.

FRENCH ORAL NARRATIVE  –     http://frenchoralnarrative.qub.ac.uk

FRENCH ORAL NARRATIVE  est le premier corpus de conte oraux. Il comprend 87 histoires contées par 18 conteurs professionnels. Il comprend environ 150.000  et représente 15 heures de parole. L’ensemble a été mis à disposition du projet Orféo.

OFROM   –   http://www.unine.ch/ofrom

Le Corpus Oral de français de Suisse Romande constitue la première archive  comprenant  uniquement  des  enregistrements de français parlé  en Suisse romande aligné texte/ son. Il contient des entretiens et des interactions et comporte environ 300.000 mots correspondant à plus de 25 heures de parole. L’ensemble a été mis à disposition du projet Orféo. 

Avanzi, M., Béguelin, M.-J. & Diémoz, F. (2012-2015).  Présentation du corpus OFROM – corpus oral de français de Suisse romande. Université de Neuchâtel.

TCOF – http://www.cnrtl.fr/corpus/tcof/

Le corpus TCOF  comporte deux grandes catégories : des enregistrements de corpus d’interactions adultes / enfants et des enregistrements d’interactions entre adultes. Cette dernière base est constituée d’environ 300.000 mots pour un total de 23 heures de parole. L’ensemble a été mis à disposition du projet Orféo.

TUFS – http://www.tufs.ac.jp/ts/personal/ykawa/art/2014_Waseda_Corpus_TUFS.pdf

Le corpus de Tokyo University of Foreign Studies  a été constitué dans des universités françaises (Aix- Marseille, Paris, Bordeaux). Il constitue la partie française d’un corpus d’entretiens multilingue (canadien, espagnol, français, japonais, malaisien, turc). Cette partie présente plus de 750.000 mots pour un total d’environ 54 heures de parole.  L’ensemble a été mis à disposition du projet Orféo.

Valibel –  http://www.uclouvain.be/81834.html

Le centre Valibel – Discours et Variation gère une base de données textuelles comprenant actuellement 22 corpus constitués d’enregistrements de productions orales (1987-1995), transcrits et encodés sur support informatique. Ces corpus représentent 373 heures d’enregistrement auprès de 533 informateurs originaires de Bruxelles et de la Wallonie.  500.000 mots ont été mis à disposition du projet Orféo pour une durée d’environ 43 heures de parole.

Corpus constitués par des chercheurs individuels

Entretiens (S. Caddeo) 

Le corpus  comporte environ 12.000 mots pour une heure de parole. IL est constitué essentiellement d’entretiens avec des locuteurs du sud de la France. L’ensemble a été mis à disposition du projet Orféo.

Réunions de travail (M. Huscianycia) 

Le corpus est constitué d’enregistrement de réunions de travail dans le milieu associatif. Il comprend plus de 200.000 mots pour environ 18 heures de parole. L’ensemble a été mis à disposition du projet Orféo.