TEI-CMC version of Wikipedia discussions associated with the article
Open Resources and TOols for LANGuage
This page: https://hdl.handle.net/11403/comere/cmr-wikiconflits/cmr-wikiconflits-eolienne_discu-tei-v1
Back to corpus main page: https://hdl.handle.net/11403/comere/cmr-wikiconflits
Download the TEI file: https://hdl.handle.net/11403/comere/cmr-wikiconflits/cmr-wikiconflits-eolienne_discu-tei-v1.xml
How to cite this resource
Poudat,C., Grabar , N., Jin, K. & Paloque-Berges, C. (2015). TEI-CMC version of
Wikipedia discussions associated to the article "Éolienne". In Corpus Wikiconflits
"Conflits dans le Wikipédia francophone" (cmr-wikiconflits), CoMeRe corpora repository.
Ortolang.fr : Nancy. [ cmr-wikiconflits-eolienne_discu-tei-v1 ;
Overview of the corpus
This file contains discussions associated with the wikipedia
article "Éolienne" (cmr-wikiconflits-eolienne_p1-tei-v1) from
2004 to 2012, transformed into TEI-CMC format. Discussions have been reorganized out of
the main discussion page and all archives of discussion pages. It represents a subpart
of the corpus Wikiconflits "Conflits dans le Wikipédia francophone"
(cmr-wikiconflits).Keywords : Computer Mediated Communication; CMC; Wikipedia; discussion;
Poudat, C., Jin, K., & Chanier, T. (2014). Wikiconflits, un corpus extrait de
Wikipédia : principe et méthode d'élaboration. In Poudat,C., Grabar , N., Jin, K. &
Paloque-Berges, C. (2015). Corpus Wikiconflits, conflits dans le Wikipédia francophone".
Banque de corpus CoMeRe. Ortolang.fr : Nancy. [cmr-wikiconflits-tei-v4.1-manuel.pdf ;
- https://hdl.handle.net/11403/comere/cmr-wikiconflits/cmr-wikiconflits-eolienne_p1-tei-v1.xml: Part 1 article "éolienne" associated with the current discussions. TEI format
- https://hdl.handle.net/11403/comere/cmr-wikiconflits/cmr-wikiconflits-eolienne_p2-tei-v1.xml: Part 2 article "éolienne" associated with the current discussions. TEI format
- https://hdl.handle.net/11403/comere/cmr-wikiconflits/cmr-wikiconflits-eolienne_discu-tei-v1.xml: This file. Discussion associated to the article / page "éolienne" in TEI-CMC format.
- https://hdl.handle.net/11403/comere/cmr-wikiconflits/cmr-wikiconflits-eolienne_discu_neut-tei-v1.xml: Discussion about neutrality associated to the article / page "éolienne" in TEI-CMC format.
- https://hdl.handle.net/11403/comere/cmr-wikiconflits/cmr-wikiconflits-eolienne_histo-html.zip: History of dicussions and article related to the topic "éolienne" in the HTML
Wikipedia format
- https://hdl.handle.net/11403/comere/cmr-wikiconflits/cmr-wikiconflits-contributors-tei-v1.xml: TEI file which lists the 3971 contributors and gives them an ID, which is used
- https://hdl.handle.net/11403/comere/cmr-wikiconflits/cmr-wikiconflits-tei-v4.1-manuel.pdf: Manual, written in French, which explains what part of Wikipedia.fr has been
selected and what automatic processing has been done on Dumps.
Download the corpus corresponding to this topic:
https://hdl.handle.net/11403/comere/cmr-wikiconflits/cmr-wikiconflits-eolienne_discu-tei-v1.zip (65 Mo)
Coverage: 43 participants ; 152 contributions ; 13 454 tokens (this file only)
Rationale for this corpus
The corpus Wikiconflits "Conflits dans le Wikipédia francophone"
cmr-wikiconflits) gathers conflictual discussions around a set of
(pseudo-)scientific topics: "Quotient Intellectuel","Igor et Grichka Bogdanoff",
"Organismes génétiquement modifiés", "Chiropratique", "Histoire de la Logique",
"Éolienne", "Psychanalyse" (see cmr-wikiconflits-tei-v4.1-manuel.pdf for
selection criteria). For each topic, versions of the article have been transformed into
TEI, talk / discussions pages have been reorganized , alongside pages related to conflicts
and neutral points of view, all formatted into TEI-CMC. History pages have also been
extracted as-is in HTML Wikipedia formats, as well as pages and talk pages of the more
important contributors (left in wikicode format).
This corpus has been created by the CoMeRe project, which aims to gather
different corpora that represent the forms of communication in French on different
networks (Internet, phone, etc.), all structured and informed in the same way, diffused in
open access formats for research purposes. The CoMeRe projet has received the support of
ORTOLANG (the French equivalent of DARIAH) and of the national consortium Written-Corpus
('Corpus-écrits') , subsection of
Editorial procedures
The body is divided into divisions (div), one per subject. Every
division is segmented into contribution (post), one per author (see
tagsDecl for details).
Contributors to discussions may not respect the recommended (by Wikipedia) ways of
reacting / posting an answer / a question: ident not present with insertions appearing
in the previous contribution as if everything had been written by one person ; no
signature, etc. Therefore after the automatic decompositon into seperate conrtibutions
(post), some manual checks and corrections have been made: when adding
missing information in attributes of the post(date, contributors id), or when
segementing a contribution into several parts, because they were from different authors,
or when relating different post together because they orignally were part of
the same contribution (i.e. before another contributor wrote inside it without taking
respecting the wikipedia format). In the latter case, a join may have been
added in order to establish these links. It should be noted that correctors when
reestablishing the discussion thread, avoided changing the original contents of the text
(words/ tokens ; they did not introduce signatures, for example). Information about
these problems and the manual correction is explained in .
Correctors (i.e. authors of this corpus) may have left some XML comments between 2
post in order to explain what they did.
Every subject of discussion has been assembled here. For this purpose, we have searched
in the main discussions page, and its related archives. All redundant information
between the main discussion page and its archives have been suppressed. All missing
information (missing in the main page but present in the archives) has been included
here. Then each contribution has been segmented into one message (post).
Description of the Interaction Space
CMC Environment
Structure of interactions
- div: one division per discussion subject. When there is a top-level division
with subtype equal to "ill-formed-discussion", it means that: 1) the original
discussion was ill-formed (mainly because participants did not respect Wikipedia
discussion guidelines) ; 2) the automatic processing cannot correct an ill-formed
discussion ; 3) a manual check should be done, but has not yet been done.
- head: title of the discussion subject
- post: one post corresponds to one contribution from one author
- xml:idID of the post
when-isodate of post, ISO 8601 format
whoid of the author of the post with a prefix ":psn" (see
listPrefixDef) . In order to find ist of partcipants, IDs, aliases see
nlevel of indentation (may not be accurate, is not sufficient to
distinguish what part of text is an answer to another contribution). When n=0, the
contribution opens a new discussion subject
- ref ID of the post to which the current post answers
- p: A post may contain one or more paragraphs
- signed: Signature of a post (may not exist)
Data Collection
Data collected : From 2004-03-07 to 2012-12-11
French Wikipedia website
Discussion page associated to an article
Language of the data:
Types of interaction
- channel: mode: w,
Discussion written in Wikipedia
- constitution: type: single,
Selection among Wikipedia articles of (pseudo-)scientific topics where
conflictual discussions happened. See projectDesc for more
- derivation: type: original,
- domain: type: public,
- factuality: type: fact,
- interaction: type: complete,
active: plural,
passive: world,
- preparedness: type: formulaic,
- purpose: type: express,
degree: high,
For the list of participants / contributors see listPrefixDef and
Extracts of Interactions
Attention aux lecteurs, article loin d'être neutre!
p: Certains points de cette présentation sont clairement Anti-éolien.
p: Les études citées sont quasiment seulement celles en défaveur de l'éolien. (entre autres)
p: Je penses qu'un article comme celui ci sur un site comme Wikipédia est censé informer les gens et non les convertir à sont point de vue. Il devrait rester objectif et scientifique sans afficher un avis plus que défavorable à cette énergie. Qui certes a des défauts, mais certaines qualités indéniable si l'on reste avec un esprit de scientifique et non une personne au parti pris flagrant.
p: Attention aux lecteurs qui voudraient se faire une idée réel (à charge et à décharge) sur l'éolien!
Signature: Pourlavérité (d) 23 mars 2011 à 18:55 (CET)
p: Ha bon, un article pro-éolien serait plus neutre {{sourire}} !
p: cdt
Signature: Erwan1972 (d) 23 mars 2011 à 20:10 (CET)
Quelques infos supplémentaires
p: Quelques informations supplémentaires dans cet article déjà bien étoffé:
Il existe d'autres alternatives pour utiliser l'éolien sans avoir recours aux "moulins à vents". Par exemple, le projet Wind Tower développé par une société japonaise qui permet de collecter les vents sur une grande surface et de faire la transformation énergétique au sol. Cela a permet notamment de ne pas avoir les inconvénients liés aux pales gigantesques, à la difficulté d'accès, à la limitation de vitesse des vents (utilisation dynamique de différentes turbines), ... Dans certains cas, les projets sont un peu plus futuristes, mais il est intéressant de voir quelles sont les différentes possibilités envisagées comme le Windstalk, le Hubless Windmill ou encore ce qui est développé par Magenn.
Pour combler le problème de variabilité des vents vs besoins du réseau (lissage de la production), il n'y a pas que l'hydro-électrique, il existe un tas d'autres possibilités (génération d'hydrogène, stockage chimique, stockage thermique, compression d'air, ...). Un petit lien vers les différentes méthodes de stockage vers l'article correspondant de Wikipedia serait intéressant: Stockage_d%27%C3%A9nergie
Quelques modèles différents "non standards" (en général pour de plus petites puissances) dont les collaborateurs de l'article pourraient s'inspirer: Small Wind Helix Windspire Urban Green Energy Home Energy - éolienne sphérique Swift
Signature: Yoritomo001 (d) 29 mars 2011 à 18:10 (CEST)
p: pourquoi avoir mis ces infos en pdd et pas directement dans l'article ?
p: je trouve çà dommage !
p: cdt
Signature: Erwan1972 (d) 29 mars 2011 à 20:14 (CEST)
p: Effectivement, mais la page est semi-protégée et cela veut dire que seuls les utilisateurs enregistrés depuis plus de quatre jours peuvent la modifier ... je dois donc encore attendre 3 jours pour pouvoir le faire (newbie inside ;o) )
p: Je dois bien avouer que ce n'est que maintenant que j'ai regardé ce que voulait dire "semi-protégée" ... je pensais que c'était restreint à un groupe particulier.
p: De plus, ne maîtrisant pas encore les règles de Wikipedia, je ne suis pas certain que les liens externes que j'ai donné ne sont pas un peu trop "commerciaux". Un avis là dessus?
Signature: Yoritomo001 (d) 30 mars 2011 à 10:38 (CEST)
p: 72 heures, une éternité dans une vie {{sourire}}
p: bienvenue et bonne contribution
p: cdt
Signature: Erwan1972 (d) 30 mars 2011 à 15:45 (CEST)
Credits, Publication Statement and Rights
Date: 2015-03-15
uri: cmr-wiki-c015
url: https://hdl.handle.net/11403/comere/cmr-wikiconflits/cmr-wikiconflits-eolienne_discu-tei-v1
Following Wikipedia.fr recommendation this corpus (and all its related contents) can be freely distributed and shared
subject only to attribution, and share alike. How to reference / cite this contents is
given in the titleSmt
Sponsor(s): Consortium Corpus-écrits. La création de l’Infrastructure de Recherche CORPUS (Coopération des
Opérateurs de Recherche Pour un Usage des Sources numériques) a ouvert la possibilité
de constituer un consortium linguistique spécialement dédié aux Corpus écrits. Ce
consortium est géré par l'Institut de Linguistique Françaiseet fait
partie de la TGIR (Très Grande Infrastructure de Recherche)
Huma-Num (
Sponsor(s): Laboratoire de recherche sur le langage
Author(s): Céline, Poudat ; Natalia, Grabar ; Kun, Jin ; Camille, Paloque-Berges ;
- editor:
Céline, Poudat ; Thierry, Chanier ;
- depositor:
Thierry, Chanier ;
- developer:
Paul, Lotin ;