Alpes4science : corpus de SMS réels dans les Alpes, smsalpes, banque de corpus
This page: http://hdl.handle.net/11403/comere/cmr-smsalpes/cmr-smsalpes-tei-v1
Back to corpus: http://hdl.handle.net/11403/comere/cmr-smsalpes
How to cite this resource
Antoniadis, G.(2014). Corpus de SMS réels dans les Alpes, smsalpes, .In Chanier T.
(ed) Banque de corpus CoMeRe. Ortolang : Nancy. [cmr-smsalpes-tei-v1 ;
This form has been automatically extracted from the TEI file. For the full
contents, see http://hdl.handle.net/11403/comere/cmr-smsalpes/cmr-smsalpes-tei-v1.xml.
Overview of the corpus
The first version of the corpus was established in the context of
the operation "SMS of the Alps", conducted by LIDILEM, University Stendhal. 22.000 real
SMS, send essentially by hundreds of donators living in the departments of the Alps,
have been collected, in 2011, by the researchers. The initial corpus was then converted
to TEI standard in the project CoMeRe (Communication Médiée par les
. This project aims to build a kernel corpus
assembling existing corpora of different CMC (Computer-Mediated Communication) genres
and new corpora build on data extracted from the Internet. These heterogenous corpora
will be structured and processed in a uniform way, complemented with metadata. CoMeRe
will be released as OpenData through the national infrastructure Ortolang, following
constraints which will be reused for the forthcoming “Corpus de Référence du Français”.
Project supported by the national consortium Corpus-écrits, sub-part of Huma-Num, and Ortolang
(French correspondant to DARIAH).
Keywords : applied_linguistics
; discourse_analysis
; text_and_corpus_linguistics
; primary_text
; dialogue
; Communication Médiée par les Réseaux
; CoMeRe
; texto
; Computer Mediated Communication
; Short Message Service
Antoniadis G., Chabert G., Zampa V. (2011). Alpes4science : Constitution d’un corpus
de SMS réels en France métropolitaine. Colloque TEXTOS : dimensions culturelles,
linguistiques et pragmatiques. Congrès annuel de l'ACFAS, 9 et 10 mai 2011, Sherbrooke,
Chabert G., Zampa V., Antoniadis G., Mallen M. (2012). Des SMS Alpins, Éditions de la
Bibliothèque départementale des Hautes-Alpes, Gap, ISBN 9782953719628
Rationale for this corpus
The project « SMS of the Alps » follows the collecting of 22.000 real
SMS send essentialy by donators living in the departments of the Alps. The project aims
three objectives : 1. The building up of a corpus of anonymised SMS, structured in XML,
facilitating the re-use and interoperability of the data. The corpus, free of rights, will
be available for researchers interested in this mode of communication. 2. The
transcription of the SMS in “standard French” and the making of a dictionary French-SMS
“language”. The transcription will be made semi-automatically, using a
transcription-interface that is being elaborated. The dictionary will be presented with a
request-interface to facilitate the exploitation. The interface should permit to “link”
the data of the dictionary with those of the corpus, so to permit, for example, the
research of contexts (of SMS) containing one or several terms given by the user. This kind
of tool shall be very useful for the study of “SMS language” and the beginning point of
several applications, in particular didactic ones. 3. The exploitation and study of data
from the questionnaire. To facilitate the exploitation of these data, a request-interface
will be created ; it should permit the extraction of data depending on a set of criteria
chosen by the user. The initial corpus has been converted to TEI standard in the project
CoMeRe (Communication Médiée par les Réseaux)
The TEI structure used is an extension of TEI for CMC genres. This
extension is developped by a European project which participants are : Michael Beißwenger
(DE), Thierry Chanier (FR), Isabella Chiari (IT), Maria Ermakova (DE), Maarten van Gompel
(NL), Iris Hendrickx (NL), Axel Herold (DE), Henk van den Heuvel (NL), Lothar Lemnitzer
(DE), Angelika Storrer (DE).
Description of the Interaction Space
CMC Environment
: Definition of the modality SMS. Type of messages used in SMS.
Structure of interactions
post: one post corresponds to one SMS. When arriving on the server, sms
including more than 162 characters may have been truncated.
- xml:idID of the posting.
when-isois the date of message collected by the system, i.e. the date the
participant sent it to the system. It may not correspond to the date the message has
been sent to its adressee. Accordingly, one participant may have sent her messages
to her correspondants at different times, but may have assembled her messages and
sent them together to the system/server.
whois the telephone number anonymized. Hence one ID identifies one
participant over the whole corpus. If messages sent by the same participant (sender)
may be studied, it should be noted that we have no information about the
typetype of message cf. taxononomy.
Data Collection
Data collected : From 2010-10-01 to 2011-01-16
A private company collected the messages and sent them to Laboratoire
de linguistique et didactique des langues étrangères et maternelles,
Université Grenoble 3.
Grenoble, France
Language of the data:
Types of interaction
channel: mode: w
Short Message Service
constitution: The harvest of SMS requires the intervention of a technical partner, Orange
Informatique, which took in charge the reception of SMS and the transfer to the Lidilem.
When arriving on this server, SMS including more than 162 characters may have been
derivation: type: original
domain: domain of a message : business or domestic
factuality: type: fact
interaction: type: complete
active: single
preparedness: type: spontaneous
purpose: open, i.e. several possible purposes
Participants (extract)
No information on participants except their IDs and the fact that they live in
Rhône-Alpes.Before giving her/his SMS, the participant accepted the
consent form explicited in availability.
Person ID= cmr-smsalpes-c001-p1000000060189758
Person ID= cmr-smsalpes-c001-p316245434975
Person ID= cmr-smsalpes-c001-p268574346157245
Person ID= cmr-smsalpes-c001-p220400343194668
Extracts of Interactions
- POST: xml:id: cmr-smsalpes-c001-a89
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p370000887590
p: Ok, on se vient au courant pour vendredi.bise
- POST: xml:id: cmr-smsalpes-c001-a90
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p370000887590
p: Coucou, ya arnaud qui propose de boire un verre en ville ce soir.ça te dis?
- POST: xml:id: cmr-smsalpes-c001-a91
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p370000887590
p: Coucou, t'as bien mangé? Tu ne manques.je t'aime bcp chéri.bise.dis moi qd tu vas
- POST: xml:id: cmr-smsalpes-c001-a92
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p370000887590
p: Coucou. On est sorti avec
. Je vous rappelle si je rentre tot, sinon demain.bise
- POST: xml:id: cmr-smsalpes-c001-a93
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p370000887590
p: Ok! Je prends une baguette, passe à marché plus pr une bouteille de vin et je rentre!
a dit qu'elle passerait peut-etre.
amène du
- POST: xml:id: cmr-smsalpes-c001-a94
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p370000887590
p: Est ce que tu veux toujours la table? Je passe à grenoble en fin de journée, si tu veux
je peux te la déposer! Bises
- POST: xml:id: cmr-smsalpes-c001-a95
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p288726353160825
p: Aaaaah ! Au secours ! N l'a dit ? (Si on veut se revoir ca va etre simple : un we avec
2 enfants, un we avec 3, et impossible de changer avec
- POST: xml:id: cmr-smsalpes-c001-a96
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p288726353160825
p: En route pr Paris ! je suis desolee de t'avoir quittee si vite hier ! On a couru couru
couru. Je t'envoie un mail pr te raconter la suite !
- POST: xml:id: cmr-smsalpes-c001-a97
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p288726353160825
p: Non, c'est trop triste les au-revoir sur un quai de gare. Dans une rue sombre a la fin
d'une soiree pleine de rires, c'est plus magique. Le controleur se moque de moi parce
que je lui avoue que je n'ai pas composté mon billet...
- POST: xml:id: cmr-smsalpes-c001-a98
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p288726353160825
p: A BXL c'etait genial ! Super café avec 1 blogueuse, soiree dementielle avec showcase
drole et sortie au bar gay du zom de
avec des bruxellois trop sympas, et dej au soleil ds le jardin de
- POST: xml:id: cmr-smsalpes-c001-a99
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p288726353160825
p: En rails vers Paris ! (Vous aussi ? Tous les SIX !?) Merci pour ce joli début de
week-end ! Un spécial merci a
pour la visite guidée passionnante ! Tu lui transmets ? C'etait une tres bonne
idee. Merci
- POST: xml:id: cmr-smsalpes-c001-a100
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p383767875118
p: J'ai regarde mon forfait origami jet. sms illimites vers tous operateurs en france sauf
numero courts. dommage qu'orange surfacture les sms vers le
- POST: xml:id: cmr-smsalpes-c001-a101
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p288726353160825
p: ? Ta reponse etait vide :D
- POST: xml:id: cmr-smsalpes-c001-a102
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p288726353160825
p: Je crois que je suis en train de verifier la theorie 1 de perdu 10 de retrouvés !
- POST: xml:id: cmr-smsalpes-c001-a103
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p288726353160825
p: Ne t'evanouispasd'horreur hein ! Je te raconterai tout un soir ;-) (donc c'est
- POST: xml:id: cmr-smsalpes-c001-a104
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p383767875118
p: Toi tu me manques.
- POST: xml:id: cmr-smsalpes-c001-a105
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p383767875118
p: Il y a des jeunes qui s embrassent. grrrr! je pense furieusement à t'embrasser
- POST: xml:id: cmr-smsalpes-c001-a106
| when-iso: 2010-10-03
| who: #cmr-smsalpes-c001-p288726353160825
p: Zetes ds quelle ville today ? Le
veut pas ramener les kids ce soir ! Suis rentree du nord pour rien. Zut alors ! We
de folie trop genial (aie le contrecoup demain avc fatigue+boulot)
- POST: xml:id: cmr-smsalpes-c001-a107
| when-iso: 2010-10-04
| who: #cmr-smsalpes-c001-p324100619878
- POST: xml:id: cmr-smsalpes-c001-a108
| when-iso: 2010-10-04
| who: #cmr-smsalpes-c001-p324100619878
p: Cc!ça va?alor t'avance ds t cours?du coup,ce we,ty va ac la clio?pcq g pensé à 1 truc:c
1 pe bete k tu viennes la chercher vend soir alor kn sretro
- POST: xml:id: cmr-smsalpes-c001-a110
| when-iso: 2010-10-04
| who: #cmr-smsalpes-c001-p294665371685319
p: Coucou. Super pour les SMS. Moi j en ai même pas envoyé. En fait si j abrège rien je l
envoi quand même? LOL. Bisous je t aime
- POST: xml:id: cmr-smsalpes-c001-a111
| when-iso: 2010-10-04
| who: #cmr-smsalpes-c001-p294665371685319
p: J ai ouvert un petit bocal de pâte.. C trop bon!!!! Sur 2 bocaux il reste un peu de
liquide qui ne fige pas(ni gelée ni gras). Bizarre! Sinon ça va bien dormi. Et toi?????
C pour ça que je comprend pas si pas de mot ni SMS.... Bisous je t aime
- POST: xml:id: cmr-smsalpes-c001-a112
| when-iso: 2010-10-04
| who: #cmr-smsalpes-c001-p294665371685319
p: Juste 2 sur la totalité!! C pas grave. C juste bizarre. Bisous je t aime
- POST: xml:id: cmr-smsalpes-c001-a113
| when-iso: 2010-10-04
| who: #cmr-smsalpes-c001-p294665371685319
p: Coucou. Pas de petit mot ou c que je le trouve pas??
Composition of the corpus
Download the whole corpus: http://hdl.handle.net/11403/comere/cmr-smsalpes/cmr-smsalpes-tei-v1.zip (ZIP file, 3.6 Mo )
nbparticipants=359 ; nbmessages=22052
principal : Gerorges Antoniadis, Chanier Thierry.
compiler : Antoniadis Georges.
editor : Chanier Thierry.
data inputter : Hriba Linda, Jin Kun.
developer : Lotin Paul.
participant : Ledegen Gudrun.
publisher : ORTOLANG (Outils et Ressources pour un Traitement Optimisé de la
LANGue), Nancy:France
Publication Statement and Rights
Date: 2014-04-30
uri: cmr-smsalpes-tei-v1
short-uri: cmr-smsalpes-c001
url: http://hdl.handle.net/11403/comere/cmr-smsalpes/cmr-smsalpes-tei-v1
Rights holders of this corpus are: Antoniadis Georges ; Thierry
This corpus can be freely distributed and shared subject only to
attribution, non commercial use and share alike. The way to reference / cite the
corpus is given in the titleSmt