Guide d'annotation syntaxique du corpus Orfeo
Version : décembre 2017
Rédacteurs : Sylvain Kahane,
José Deulofeu, Kim Gerdes, Alexis Nasr, André Valli
Avec la collaboration des annotateurs :
Marion Bernard, Anaïs Chanclu, Fanny Lafontaine,
Marie Marcia, Chloé Monnin, Rafaël Poiret
2.1 Liste des catégories morphosyntaxiques
3.5 Les autres dépendants : dep
3.6 Eléments disfluents : disflink
3.5 Constructions microsyntaxiques particulières
3.5.1 Propositions relatives et interrogatives indirectes
3.5.4 Adverbes dans des entassements paradigmatiques
3.5.6 Que + S et Comme + S
3.5.7 Plus + ADJ + que et plus + ADV + que + consécutives
4. Listes paradigmatiques (coordinations)
4.1 Lien paradigmatique : para
5.1 Eléments périphériques : periph
5.2 Marqueurs de discours : dm
Note
préalable : certaines analyses peuvent apparaître discutables, mais elles
visent à minimiser les erreurs d’analyse automatique. Il s’agit en outre
d’éviter que le système d’interrogation ne retourne pas des exemples cruciaux
pour l’argumentation. En termes quantitatifs ce choix suppose que l’on
privilégie la dimension « retour » plutôt que la dimension
« précision ». C’est, par exemple, le cas de l’analyse des clivées
(c’est Marie qui vient) qui ne sont
pas distinguées des constructions avec une relative ordinaire (c’est la fille qui devait venir
Voir le
détail des choix dans le guide Segmentation.
L’unité
maximale de segmentation est aussi appelée énoncé
Selon le
guide de segmentation, « les unités maximales de segmentation (US) sont
basées par défaut sur des constructions verbales, mais aussi sur des
constructions dont le gouverneur est une autre catégorie ( nominales, adjectivales,
adverbiales prépositionnelles…)
lorsqu’elles constituent un tour de parole. Les US regroupent donc
canoniquement un élément tête ainsi que toutes les séquences qui sont régies
par lui. Certaines US sont constituées de la séquence tête + éléments régis
étendue aux éléments dits « associés » dans le cadre de l’Approche
Pronominale ou périphériques dans d’autres cadres. »
L'unité
maximale est également appelée énoncé.
Nous associons à chaque énoncé un arbre complet dont le nœud racine
reçoit la fonction root. La structure de dépendance d’un
énoncé est donc toujours connexe et intègre aussi bien des relations micro- que
macrosyntaxiques.
Les énoncés
sont découpés en tokens. Ces tokens
constituent l’unité minimale de l’analyse en dépendance.
Nous
appelons mots orthographiques les segments de textes maximaux comprenant des
lettres et l’un des deux autres symboles utilisés dans les transcriptions
orales : l’apostrophe et le tiret.
Le guide
doit être complété pour la segmentation de l’écrit, mais en première
approximation on peut dire que les séquences de chiffres et les signes de
ponctuation (utilisés comme ponctuation, cf. les différents usages du point)
forment des tokens.
Les mots
comportant une apostrophe sont décomposés en deux tokens avec l’apostrophe à
gauche (l’ enfant), à l’exception de aujourd’hui
et de mots grammaticaux comme quelqu’un
ou l’un, qui figurent dans notre
lexique des unités grammaticales.
Les mots
comportant un tiret sont décomposés en deux tokens avec le tirets à droite
lorsque le token ainsi formé appartient à notre lexique de mots
grammaticaux : dit -on, a -t-il, maison -là, … Les autres
mots comportant un tiret forment un token : avant-hier, au-dessus, soutien-gorge, …
En dehors de
ces cas, un token ne peut jamais être une partie de mot. En particulier, les
amalgames (au, du, des, …) ne sont
jamais décomposés.
Les mots
lexicaux forment un token même lorsqu’ils font partie d’une locution. Ainsi pomme de terre forme trois tokens.
Les
locutions (expressions multi-mots) grammaticales répertoriées dans le lexique
Orfeo (adapté du Lefff, selon les dispositions détaillées dans le guide des POS)
forment des tokens. Cela concerne les catégories suivantes :
·
ADV :
à coup sûr, belle lurette, bien entendu,
dans ce cas, …
·
COO :
ainsi qu’, c’est-à-dire, et puis, y compris, plutôt
que,…
·
CSU :
est-ce que, parce que, sous réserve
qu’, toujours est-il que, …
·
DET :
Dieu sait quelle, le moins de, n’importe
quels, tel et tel, une drôle de, … (mais pas les ADV de comme beaucoup de, combien
de, moins de, plein de, …)
·
INT :
à bientôt, hum, mh euh, ouh là, …
·
PRE :
aux côté de, d’après, de façon à, en face
d’, …
·
PRO :
autre chose, elles-mêmes, le mien,
l’autre, n’importe lequel, …
·
PRQ :
où est-ce que, qui est-ce qui, …
Note technique : Les locutions grammaticales qui
possèdent par ailleurs une analyse compositionnelle sont décomposées lors du
pré-traitement et reliées par un lien morph
lors de l’analyse en dépendance. (voir guide POS).
Figure
1. Les deux analyses de bien que
Afin d’optimiser la reconnaissance des morph ceux-ci suivent l’analyse syntaxique qu’aurait la locution.
Lorsqu’un élément possède la même catégorie que la locution, il est privilégié
comme tête (c’est cas de que pour bien que ci-dessus).
Figure 2. Exemple de liens morph
Chaque token
est pourvu d'une étiquette morphosyntaxique (donnée par le lexique).
l ADJ (adjectifs qualificatifs) : méchant, petit, long, gigantesque, drôle, rouge, etc.
l ADN (adverbes de négation) : pas, jamais,
nullement, guère, plus, etc.
l ADV (adverbes) : savamment, peut-être, in extremis, très, environ, etc.
l CLI (autres clitiques) : te, lui,
-le, -y, en, -leur, nous, etc.
l CLN (clitique de négation) : ne
l CLS (clitiques sujets) : tu, elles,
vous, -vous, c’, etc.
l COO (conjonctions de coordination) : et, ou, alias, mais encore, voire, puis, etc.
l CSU (conjonctions de subordination) : au fur et à mesure qu’, alors
que, lorsque, etc.
l DET (déterminants) : cette, certains, quelques, un, etc.
l INT (interjections) : hein, ben, allô, pfff, no comment, niark, okidoki, parbleu, etc.
l NOM (noms) : diplodocus, Montastruc-la-Conseillère,
topinambour, Google, etc.
l NUM (nombres) : six, treize, milliard, quatorze, mille, billion, dix-sept, quatre-vingt-onze, vingt-cinq, etc. (mais pas soixante et un)
l PCT (signes de ponctuation) : !, ?,
!, etc., (, », etc.
l PRE (prépositions) : de, des, nonobstant, parmi, pour cause de, par delà, outre, etc.
l PRO (pronoms) : moi, celles, les tiens, plusieurs, vous-mêmes, nul, pas grand-chose, etc.
l PRQ (pronoms interrogatifs-relatifs) : combien est-ce que, lequel, pourquoi, que, etc.
l VNF (verbes à l'infinitif) : tenir, poindre, jouer, entendre, etc.
l VPP (verbes au participe passé) : tenu, point, joué, entendu, etc.
l VPR (verbes au participe présent) : tenant, poignant, jouant, entendant, etc.
l VRB (verbes à la forme finie) : tiens, poignent, joueraient, entendissions,
etc.
l X (mot inconnu, étranger ou tronqué
de catégorie indécidable) : El Paìs,
fuck you, etc.
Remarques diverses (rappel du guide
POS) :
-
des est
toujours analysé comme PRE, qu’il s’agisse de l’article indéfni ou de
l’amalgame de de et de l’article
défini les.
Figure
3. des comme PRE
-
deux est
toujours analysé comme NUM qu’il commutent avec des DET (deux chaises), des ADJ (les deux
chaises), des PRO (j’en ai deux)
ou des NOM (la deux).
-
Par contre, million est NUM dans deux millions cinq cent mille et NOM
dans deux millions de personnes.
Figure
4. NUM vs NOM
-
quelques est
toujours ADJ, avec fonction spe dans quelques chaises et dep dans ces quelques chaises.
De même pour tout : il est ADJ
et spe dans toute autre solution ; ADJ et dep du nom jours dans tous les jours ; mais PRO dans je sais tout et ADV dans tout jaune.
-
Les déictiques
comme demain sont classés parmi les
ADV en suivant la tradition, même quand il commute avec des NOM comme lundi : il vient demain/lundi/lundi prochain/ce lundi/le lundi de mon
anniversaire.
Les lemmes
sont comme il est d’usage la forme pour les lexèmes invariables, la forme
infinitive pour les verbes, le singulier pour les noms et le masculin singulier
pour les adjectifs.
Le lemme
pour les articles (DET) et les pronoms clitiques (CLI) le, la, l’, les est le, le lemme pour du et des est de+le.
Le lemme
pour les pronoms clitiques de 1ère et 2ème personne je, tu, nous, vous, me, te … est la
forme non élidées (me pour m’). Le lemme pour les clitiques sujet
(CLS) de 3ème personne (il,
ils, elle, elles) est la forme du masculin singulier il. Le lemme pour les pronoms forts personnels (PRO) (toi, lui, eux, elle, elles) est la forme
de 1ère personne singulier moi.
Le lemme
pour les déterminants possessifs (mon,
ma, mes, ton, ta, tes …) est toujours mon.
Le lemme
pour les mots tronqués est le token lui-même, même si on pense pouvoir
reconstruire le mot que le locuteur souhaitait produire :
Figure
5. Lemmes
Les
relations de dépendance dont nous avons besoin en microsyntaxe sont :
·
root (racine)
·
dep (dépendant, complément ou ajout)
·
subj (sujet)
·
aux (auxiliaire)
·
spe (spécifieur)
·
disflink (segment non analysable)
root désigne l'élément racine de
l’énoncé, qui est la tête du noyau de l’énoncé. Cet élément ne dépend d'aucun
autre élément aussi bien à l'échelle microsyntaxique qu'à l'échelle
macrosyntaxique. Lorsqu'un élément forme à lui seul l'intégralité de l'énoncé,
il s'agit alors d’un élément root.
Figure
6. root
Convention :
oui est un élément root uniquement quand il constitue une
réponse à une question. Dans les autres cas, il est marqueur de discours
(relation dm). Il peut aussi être dep dans il pense que oui.
NB 1. Comme
le montre la figure 6, nous avons choisi de faire du participe passé (VPP) la
tête d’un forme verbale complexe (voir aux).
NB 2. Toutes les catégories peuvent être root, sauf DET
et COO. Les constructions introduites par une CSU qui ne forment pas un tour de
parole sont normalement rattachées, même lorsqu’il s’agit a priori de
subordonnées non régies « périphériques » (il doit être à la fac parce que sa voiture est dans le parking) :
le segmenteur automatique ne pourrait pas les distinguer d’ajouts régis
canoniques ( complément de cause) : il
doit être à la fac parce qu’il a cours aujourd’hui. Lorsque les CSU root forment un tour de parole, cette
annotation peut représenter une construction fragmentaire acceptable (tant qu’il y aura des hommes) , mais
aussi un fragment imposé par le découpage, qui devrait en fait être rattaché à
un gouverneur du tour de parole précédent.
3.2 Le
sujet : subj
subj désigne le sujet du verbe.
En cas de
construction impersonnelle, c’est le sujet grammatical, c’est-à-dire le pronom
qui porte la fonction subj :
Figure
7. Sujet impersonnel
Certaines
participiales prennent un sujet (on fait ici l’équivalence avec une fois que le fleuve est traversé, ce
qui justifie également le rôle de tête de une
fois).
Figure
8. Sujet d’une participiale
Dès que le
verbe porte un enclitique sujet, celui-ci est déclaré comme sujet. En
conséquence, un verbe peut exceptionnellement avoir deux sujets :
Figure
9. Double sujet
Cette situation est néanmoins exceptionnelle. En cas de
dislocation gauche du sujet, seul le pronom clitique occupant la position
microsyntaxique de sujet portera la fonction subj (voir periph) :
Figure
10.
Dislocation
du sujet
La relation aux s'applique aux auxiliaires qui
dépendent d'un verbe au participe passé (VPP). Le choix de traiter le participe
comme la racine de l'énoncé permet d’éviter la non-projectivité que pourrait
générer des énoncés du type il lui a
parlé.
Convention
: Sont seulement
considérés comme auxiliaires ÊTRE et AVOIR.
Figure
11.
Auxiliaire et clitique
Ce choix peut néanmoins conduire à des constructions non
projectives en cas de négation et de double auxiliaire :
Figure
12.
Double auxiliaire
spe désigne le spécifieur du nom. Un
seul des éléments rattachés au nom peut porter cette étiquette. Les autres
éléments porteront alors la fonction dep.
Figure
13.
Spécifieur
et dépendants du nom
La fonction spe est attribuée à l’élément (DET, ADJ,
PRQ) en tête du groupe nominal et obligatoire dans le contexte : Dans tous
les amis et seuls les amis, c’est
les qui est analysé spe.
Rappel :
de, du et des sont toujours PRE et toujours analysés comme gouverneur du NOM
qu’ils introduisent. Ils ne sont donc jamais spe :
Figure
14.
de, du, des
dep regroupe tous les éléments dépendant
microsyntaxiquement d'une tête qui ne font pas l’objet d’une fonction spéciale
(subj, aux, spe, mark) ou ne sont pas
traités au niveau macrosyntaxique (periph).
Sont également traités comme dep les
adverbes intégrés au noyau (il est quand même venu) et les
subordonnées, même lorsque leur statut comme complément régi est discutable (il est à la fac parce que sa voiture est dans le parking).
Parmi
les relations de dépendance dep, on
notera :
·
les compléments
régis par le verbe qu’ils fassent partie ou non de la valence verbale (objets
direct et indirect, attributs du sujet ou de l’objet, complément oblique,
ajouts ou modifieurs).
Figure
15.
Compléments
d’un verbe
·
le complément de
la préposition, de l’adjectif, de l’adverbe
·
le verbe
introduit par une conjonction de subordination (pour les conjonctions de
coordination, voir mark) :
Figure
16.
Complément
de CSU et de PRE
Figure
17.
Pronom
interrogatif
Figure
18.
Discours
rapporté
Figure
19.
Adverbiaux
Mais pas
ceux qui sont en position détachée à gauche, qui sont periph (voir plus loin) :
Figure
20.
Modifieurs
hors noyau
On utilise
la fonction disflink
pour rattacher un élément en l’absence de son gouverneur : Il mange -disflink→ quelques. La tête du groupe nominal
étant absente et l’adjectif quelques
ne dépendant pas normalement d’un verbe, il est rattaché par le lien disflink à l’élément qui précède.
Figure
21.
disflink
Les amorces
disfluentes qui figurent dans une liste sont normalement gérées par le lien para. On évite le lien disflink autant que possible. Celui-ci n’est utilisé que quand
aucune autre analyse correcte ne semble possible. Dans les exemples qui
suivent, l’amorce en tant que telle est gérée par le lien para (qu’ qu’, j’ j’, de de, la la). L’utilisation du lien disflink est rendue nécessaire par le fait que l’amorce contient
plusieurs éléments qui ne sont pas liés par une dépendance régulière (qu’ on, j’ en, de la).
Dans la
figure 21 on propose de mettre disflink entre les deux clitiques sujet
(répétition simple
Figure
22.
Amorces
disfluentes
Les
prépositions sans leur complément obligatoire sont analysées normalement :
Figure
23.
Préposition
sans complément
Qu’il s’agisse des amorces
d’auxiliaire ou de verbe pour les cas de répétition simple nous proposons de maintenir para ne serait-ce que pour faciliter les
requêtes:
Figure
24.
Amorces
d’auxiliaires
Bien que le pronom relatif possède un double rôle de complémenteur
et de pronom, seul son rôle de pronom au sein de la relative est pris en
compte. En conséquence, la tête d’une relative est le verbe principal qui est
lui-même dep de l’antécédent.
Figure
25.
Relative
Il en va de même pour les interrogatives indirectes, mais ici le
verbe de l’interrogative est dep du verbe de la principale.
Figure
26.
Interrogative indirecte
Même analyse pour les relatives sans antécédent.
Figure
27.
Relative sans antécédent
On
analyse les séquences comme : quel
qu’il soit, où qu’il soit, de quelque manière qu’il agisse, comme des
relatives sans tête avec quel que, où que,
PRQ ,
La relative est PERIPH d’un VRB du contexte
:
NB. qui
que ce soit, quoi que ce soit
sont traités comme des PRO composés dans le lexique où que ce soit, comme ADV composé . Ces formes se comportent
en effet comme des lexèmes pronominaux uniques:
Je ne parlerai pas à qui que ce
soit
Le à dépend de parler et non de soit comme dans parler
à n’importe qui.
Pour chaque construction clivée qui
possède la forme c'est X qui ou il y a X qui, la proposition subordonnée
dépendra de X. Aucune différence n'est donc faite
entre une construction clivée et une construction "relative
présentative". Par conséquent, c'est
un ami qui m'a aidé et c'est l'ami
qui m'a aidé seront analysés de façon identique. (La raison en est qu’il ne
nous semble pas possible pour un analyseur automatique de discriminer entre les
deux situations sans indices prosodiques et pragmatiques.). Cette analyse vaut
pour l’objet direct clivé également.
Figure
28.
Clivage d’un
sujet ou d’un objet
Construction clivée avec syntagme
prépositionnel
Lorsque les
propositions clivées présentent un syntagme prépositionnel dans la proposition
principale, la proposition subordonnée, qui n’a plus la forme d’une relative
standard, est alors dep du verbe de la proposition principale et que est analysé par convention CSU :
Figure
29.
Clivage d’un groupe prépositionnel
Lorsque la négation pas
forme un syntagme avec une tête non verbale, il dépend de cette tête :
Figure
30.
Négation
averbale
Les adverbes sont normalement dépendants d’un verbe. Il est
néanmoins courant que des adverbes apparaissent dans des entassements
paradigmatiques, où ils forment un syntagme avec les conjoints. Dans ce cas,
l’adverbe sera marqué comme un dépendant de la tête du conjoint. On aura ainsi,
selon la position de l’adverbe et du syntagme sur lequel il
« porte », deux analyses possibles :
·
S’il n’y a pas d’entassement paradigmatique,
l’adverbe dépend du verbe : il est -dep→
surtout ennuyeux.
·
Si l’adverbe forme un syntagme avec un
conjoint, il dépend de ce conjoint : il est triste et surtout ←dep- ennuyeux.
Figure
31.
Adverbes dans entassements paradigmatiques
Voir section 5.2 pour le traitement de évidemment comme marqueurs de discours dans l’exemple précédent.
Une construction de la forme J'ai
mangé trop de sushis ou trop de
sushis sont vendus sans label est analysée de la même manière que J'ai mangé des tonnes de sushis : trop = tête adverbiale.
Figure
32.
Adv de N
Ceci concerne trop de N, peu
de N, beaucoup de N, tant de N, combien de N, plein de N, etc.
Par contre, les constructions de la forme J'ai trop mangé de sushis, où trop
n’est pas contigu à de N, est analysé
de la même manière que Je n'ai pas mangé
de sushi.
Dans cette construction, que
et comme sont considérés comme PRQ et
dépendent du verbe :
oh que c’est moche : que ←dep- est
Mais que est root dans que de N :
Le complément du comparatif en que
dépend bien du comparatif :
Figure
34.
Consécutives
Les greffes sont des propositions qui viennent occuper une place où
un syntagme d’une autre catégorie est attendu (je vais prendre je crois que c’est l’avenue AL au lieu de je vais prendre l’avenue AL), le
verbe greffé est considéré comme dep
du verbe hôte, malgré la rupture de sous-catégorisation :
Figure
35.
Greffe
l’un est
traité comme un dépendant dans cette construction :
Figure
36.
l’un PRE l’autre
Le terme liste paradigmatique rassemble les
configurations de termes unis par des liens paradigmatiques (conjoints occupant
une même fonction syntaxique par rapport à une tête) . Les étiquettes para et mark sont spécialement
conçues pour gérer les listes.
Para entre les
têtes des séquences en liste (cf 4.1)
Mark entre la tête
d’un terme de la liste et une éventuelle conjonction de coordination (4.2)
Les listes
regroupent les phénomènes suivants :
Figure
37.
Coordination
Figure
38.
Intensification
Figure
39.
Disfluence
Figure
40.
Reformulation
Figure
41.
Double
formulation
Figure
42.
Question-réponse
para représente un lien paradigmatique
qui rattache un élément à son conjoint le plus proche au sein des listes. Le
premier conjoint d’une liste est la tête (et le gouverneur de la liste s’y
rattache). Un dépendant commun se rattache au conjoint le plus proche. Les
liens paradigmatiques vont toujours de gauche à droite.
Figure
43.
Liens
para
Par défaut, il n’y a pas de lien para entre des verbes principaux, même lorsque ceux-ci sont dans un
discours direct (voir guide de segmentation). Par contre, deux verbes
principaux qui partagent un dépendant seront liés par un lien para. L’exemple suivant illustre les
deux cas :
Figure
44.
Liens
para entre verbes principaux
On
utilisera aussi un lien para pour la construction de X à Y, où on a une forme de coordination (ordre fixe *à Y de X)
: de trois à quatre personnes, du début à
la fin, le train de Paris à Marseille.
Figure
45.
de X à Y
Les
conjonctions de coordination (COO) sont analysées comme
dépendant du conjoint qui suit par un lien mark. Cette analyse permet de privilégier le lien para entre les deux conjoints
et de rendre compte de l’asymétrie de la construction (la conjonction forme un
syntagme avec le conjoint qui suit et pas celui qui précède).
Figure
46.
mark
Les
COO en début d'énoncé dépendent de la racine par un lien mark.
Figure
47.
CCO
introducteur
Les
épexégèses (ou compléments différés) peuvent être introduits pas une
conjonction de coordination sans qu’il y ait alors de lien para :
Figure
48.
Epexégèse
Les
exceptives sont traitées comme des cas de listes paradigmatiques, avec sauf, excepté, hormis ou à part comme COO et mark. Ce traitement est justifié par le fait que les éléments comme
sauf peuvent être suivi de syntagmes
que n’autorisent pas les PRE (sauf à
Paris, hormis quand il pleut) et
qu’ils ne sont jamais précédé de et.
(Par contre sauf que n’a rien à voir
au niveau syntaxique et est traité comme une CSU figée.) Il s’agit souvent
d’épexégèses, sans lien para (2e
exemple ci-dessous).
Figure
49.
Les
exceptives (sauf, …)
Certains adverbes paradigmatisants se comportent de manière
proche des COO, mais le fait qu’ils puissent cooccurer avec et ne permet pas d’en faire des COO. C’est le cas par exemple de y
compris :
Figure
50.
L’adverbe
y compris
L'analyse en
macrosyntaxe prend en compte le rattachement des éléments non régis ainsi que,
par convention dans ce guide, les éléments en position détachée, régis ou pas.
Afin de pouvoir les analyser comme il convient, nous utilisons les relations periph, dm, et parenth.
La relation periph relie les éléments périphériques, en
position détachée par rapport à l’élément root).
Les
constituants à gauche du sujet seront systématiquement traités comme periph,
même lorsqu’on pourrait
considérer qu’ils sont dans la valence du verbe. Cela est également vrai pour
des constituants dépendant d’un verbe, qui sont à la périphérie de la
construction régie par ce verbe sans être à la périphérie de l’énoncé. Il est
beaucoup plus complexe de repérer les periph
lorsqu'ils se trouvent à droite du noyau, sauf avec certains lexèmes (puisque, de sorte que, adverbes comme heureusement, franchement…) On a traité
comme périph les cas de dislocation droite
avec reprise par clitique ( comment ça
marche , les autres fig. 5) En cas d'ambiguïté potentielle on a utilisé par
défaut la fonction dep.
Certaines constructions verbales sans introducteur qui ne
peuvent fonctionner seules et jouent le rôle de présentatifs d’un thème ( il y a N, j’ai N) sont aussi annotées periph (dernier exemple de la figure52)
Figure
51.
periph
Figure
52.
Inversion du sujet
Les adverbes
(y compris les dits « adverbes de phrase ») sont dep quand ils sont intégrés au noyau et periph quand ils sont en périphérie du noyau :
Figure
53.
Adverbes
dep vs periph
Iles constituants placés devant le
sujet d’un VRB dépendant (en subordonnée) sont également analysés comme periph (sauf les PRQ) :
Figure
54.
periph dans une « subordonnée »
Les adverbes
qui apparaissent dans des listes paradigmatiques dépendent du conjoint (voir
section 3.5.4). Certains adverbes sont traités comme des marqueurs de discours
(voir section 5.2 qui suit). Les autres, ainsi que les syntagmes
prépositionnels sont dep, même ceux
qui sont détachés et pourraient être analysés comme periph (cf. encore
ci-après) :
Figure
55.
pas
de periph
dans un entassement
On évite les
periph de periph même quand il y aurait de bonnes raisons de le faire. Par
exemple, moi mon vélo le guidon il est
cassé est analysé avec 3 periph dépendant
du noyau. Idem dans le cas suivant :
Figure
56.
Double
periph
Les
marqueurs de discours sont des éléments plus flottants que les periph. Un élément dm est rattaché à l'élément qui le
précède directement, ou à la racine s’il est en position initiale.
Seule
exception : lorsque le dm est en
tête d’un discours direct, il est rattaché au verbe principal du discours
direct et pas à l’élément qui précède.
Figure
58.
dm et discours direct
Liste des
éléments pouvant fonctionner comme DM
La liste des
DM extraite depuis les fichiers Rhapsodie :
Interjections : euh, , bon, hein, bah, enfin, mh
mh, voilà , oui, non, ben, peuh, eh, ah , eh ben, eh bien, oh( là) oh la la,
ouh, et oui, ouh la la la la,, waouh, eh oui,
ah bon, ouais, bref, pff, quoi,
non mais, fff, OK, en tout cas, attention,
Incises verbales « sans complément » :
je dirais, je veux dire , on dit, on va dire, je dois dire, disons, je te dis , je me disais, on dirait, si je puis dire, c’est-à-dire, comment (dire)
, je cite, , je vous signale
je sais, tu sais, je sais pas, vous
savez,
je vois, vous voyez, voyez-vous, tu
vois , tu as vu, voyez, tu verras , vous verrez, vous allez voir
il me semble, je crois , je pense, je trouve,
j'imagine, tu imagines , je me souviens,
si vous voulez, si tu veux, allez, remarque, remarquez, écoute,
écoutez,, attends, attendez, ça y est, pardonnez-moi, pardon, n'est-ce pas,
excusez-moi,
Certains
adverbes comme alors (fig 59) ou donc, en fait, enfin (fig 60), et en tout cas sont normalement des dep ou des periph, mais
certains locuteurs en font des tics de langage et les utilisent comme des
phatiques ponctuant la plupart de leurs énoncés. Dans ce cas, on peut être
amenés à en faire des dm, mais la
frontière est difficile à tracer.
Figure
59.
alors comme dm
Certains
adverbes en -ment comme finalement ou évidemment pourrait être analysés comme des dm dans certains cas, mais pour éviter les ambiguïtés d’annotation
nous les traiterons systématiquement comme des dep ou periph.
Les incises,
comme répéta-t-il ou dit le diable, sont étiquetées dm et attachées au mot précédent comme
les dm et les parenth:
Figure
61.
Incise
de discours rapporté
Les
constructions verbales saturées (et sans inversion du sujet) comme vous l'avez vu ou il a dit seront traitées comme parenthèses :
Figure
62.
Incises
vs parenthèses
Les
parenthèses sont explicitement identifiées et analysées parenth. Le gouverneur de la parenthèse est, comme pour les dm, le mot qui précède.
Figure
63.
Parenthèses
Les
ponctuations à l’écrit forment des tokens séparés de catégorie PUNC et de
fonction punc. Il faut distinguer
deux types de ponctuation.
Ponctuation simple : il s’agit d’une ponctuation qui
fonctionne seule et marque le début ou la fin d’un syntagme. Une telle
ponctuation est toujours rattachée au dépendant de la relation qui la couvre.
Dans
l’exemple suivant, la première virgule est couverte par la dépendance periph entre a et Si : elle est
dont rattachée au dépendant qui est Si
et marque ainsi la limite droite du syntagme dont Si est la tête. La même chose s’observe avec la deuxième
virgule : elle est également couverte par un lien periph et s’attache au dépendant au contraire de lien, marquant ainsi la limite gauche du syntagme
dont au contraire est la tête. Enfin, la ponctuation finale qui n’est
« couverte » que par le lien root,
s’attache aussi au dépendant de ce lien, c’est-à-dire à la racine de l’arbre,
ici a.
Figure
64.
Ponctuation
simple
Les
virgules qui marquent des listes paradigmatiques sont traitées de la même
façon. Elles sont couvertes par un lien para
et s’attache au dépendant de ce lien qui se trouve à leur droite ; elles
marquent ainsi la frontière gauche du conjoint qui les suit, comme le font
aussi les COO.
Figure
65.
Ponctuation
simple dans une liste paradigmatique
Ponctuation double : il s’agit d’une paire de
ponctuations de même nature (deux virgules, deux guillemets, deux parenthèses,
deux tirets) qui marque les frontières gauche et droite d’un même syntagme.
Dans ce cas les deux ponctuations sont rattachées à la racine de ce syntagme
Figure
66.
Ponctuations
doubles