Morphosyntactic Automatic Processing of the Learning and Teaching Corpus (LETEC) FAVI (Français académique virtuel international) |
Open Resources and TOols for LANGuage |
This page: https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2
Back to corpus main page: https://hdl.handle.net/11403/comere/cmr-favi
Download the TEI file: https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2.xml
Riou, S. & Sagot, B. (2016). Etiquetage morpho-syntaxique du corpus FAVI [corpus]. D'après Yun, H. & Chanier, T. (2014). Corpus d'apprentissage FAVI (Français académique virtuel international) [cmr-favi-tei-v1]. Banque de corpus CoMeRe. Ortolang.fr : Nancy. [https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2]
Keywords : Computer Mediated Communication; CMC; textchat; POS tagging; MElt parser; Academic French; LETEC;
References
Composition
The whole corpus https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2 includes the following elements
Download the corpus (without videos) corresponding to this topic: https://hdl.handle.net/11403/comere/cmr-favi/cmr-favi-tei-v2.zip
Coverage: nbparticipants=31 ; textchat = 7 750 posts ; token= 77 605 ; 29 POS tags
La liste des étiquettes morpho-syntaxique utilisées par l'analyseur MElt est affichée dans la partie editorialDecl > interpretation. La version précédente de ce corpus ( cmr-favi-tei-v1 ) provient d'échanges à distance synchrones à base textuelle (activités de clavardage) dans le projet Favi (Français académique virtuel international). Le corpus porte sur les interactions entre apprenants de FLE de niveau avancé utilisant le clavardage dans un contexte académique (Yun & Demaizière, 2008 ; Yun & Demaizière, 2009 ; Yun & Demaizière, 2010). Deux expériences au total : 1) l'expérience-pilote (faviep, de janvier à mai 2006, Université Paris 3 et Paris Dauphine) comporte neuf séances d'une heure environ avec des étudiants de l'Université Paris Dauphine sur le système de clavardage de la plateforme WebCT de Paris Dauphine, 2) la seconde expérience (favie2, de mars à mai 2008, Université Paris 3 et Paris Dauphine), vingt-six séances d'une heure environ (deux ou trois séances par semaine sur le même thème mais avec des étudiants différents) sont organisées sur MSN Live Messenger. Les 35 séances de clavardage ont été codées en XML suivant le schéma Mulce-struct. Le scénario pédagogigue, accompagné des consignes données aux apprenants, a également été décrit et incorporé dans le corpus d'apprentissage LETEC.
The list of the morpho-syntactic labels/tags used by the MElt POS-tagger is displayed in editorialDecl > interpretation. The previous version of this corpus (cmr-favi-tei-v1 ) assembles textchat sessions organized for advanced level foreign students (Masters, PhD) and researchers enrolled in a French university. These students needed to master French as it is used in an academic setting (doctoral presentations, seminars, etc.).
This corpus is a subpart of the CoMeRe corpus databank. The CoMeRe (Communication Médiée par les Réseaux) project aims to build a kernel corpus assembling existing corpora of different CMC (Computer-Mediated Communication) genres and new corpora build on data extracted from the Internet. These heterogenous corpora are structured and processed in a uniform way, complemented with metadata. CoMeRe is released as OpenData through the national infrastructure Ortolang. The project is supported by the national consortium CORLI, sub-part of Huma-Num, and Ortolang (French correspondant to DARIAH).
The TEI structure used is an extension of TEI for CMC genres. This extension is developped by a European project which participants are : Michael Beißwenger (DE), Thierry Chanier (FR), Isabella Chiari (IT), Maria Ermakova (DE), Maarten van Gompel (NL), Iris Hendrickx (NL), Axel Herold (DE), Henk van den Heuvel (NL), Lothar Lemnitzer (DE), Angelika Storrer (DE).
Editorial procedures
Contents of messages have been anonymised by the corpus compiler. Encoding of anonymisation has been standardized through all CoMeRe corpora. See fsDecl for more details
The corpus has been segmented through text, div and post . Then the text contents of every post has been tagged with MElt. See tagUsage and taxonomy for explanation. POS-tags are listed hereafter in interpretation
CMC Environment
Structure of interactions
Data Collection
Data collected : From 2006-01-31 to 2006-05-10Types of interaction
Extracts of Participants
Durant l'expérience-pilote (faviep), 3 tuteurs (dont 2 natifs) animent toutes les séances de clavardage. Lors de la seconde expérience (favie2), 2 tuteurs participent aux activités et se partage les rôles : l'un est un tuteur linguistique et l'autre s'occupe de la conception des activités de clavardage et de la modération de la séance. Le public cible est des étudiants en master, en doctorat et en post-doctorat de l'Université Paris 3 et de l'Université Paris Dauphine.Person ID= cmr-favi-TUT1
sex: male
residence:
France
affiliation: Université Paris 3
langKnowledge: First language
persName: Tutor1
Person ID= cmr-favi-TUT2
sex: female
residence:
France
affiliation: Université Paris 3
langKnowledge: First language
persName: instant:
false, Tutor2
Person ID= cmr-favi-TUT3
sex: female
nationality:
key: kor, Korean
affiliation:
Université Paris 3
langKnowledge: First language
persName: Tutor3
Person ID= cmr-favi-MEXO
sex: male
nationality:
key: mex, Mexico
affiliation:
Université Paris Dauphine
langKnowledge: First
language
persName: Octavio
Publisher(s)
Identifier(s)
uri: cmr-favi-tei-v2Licence
http://creativecommons.org/publicdomain/zero/1.0/The people who created this work have dedicated the work to the public domain by waiving all of their rights to the work worldwide under copyright law, including all related and neighboring rights, to the extent allowed by law. You can copy, modify, distribute and perform the work, even for commercial purposes, all without asking permission. We recommend that researchers reference / cite our work as mentionned in titleSmt
All participants names have been removed and data have been anonymized.
Credits