Guides

Les trois manuels présentés décrivent les choix opérés par les concepteurs d’Orfeo. Le manuel de segmentation   expose comment les transcriptions  orales ont été segmentées en unités afin de faciliter le travail du parseur, c’est-à-dire de permettre  à un analyseur automatique de repérer les limites droite et gauche des relations de dépendance à partir d’un élément tête.

L’orientation majeure qui a guidé l’élaboration des manuels d’annotation est que ces dernières ne fournissent pas des analyses, mais constituent des outils d’aide à l’analyse. Les annotations morphosyntaxiques ne prétendent donc pas représenter une analyse linguistique des données brutes mais ont un objectif plus modeste : fournir un cadre avec le moins d’a –priori possible pour recueillir des données pertinentes permettant l’établissement de généralisations descriptives sur le français. En d’autres termes il s’agit d’une aide pour établir des distributions préalables à une analyse dans un cadre spécifique. C’est la raison pour laquelle les tagsets de POS et de relations ont été établis en s’appuyant, pour la partie proprement linguistique, sur des principes éprouvés dans les approches typologiques. Cette option linguistique se combine avec des préoccupations propres au traitement automatique de la langue. Le paramètre important pour la construction et l’évaluation de l’analyseur a été la qualité du « retour », plus que celle de la « précision ». Concrètement cela veut dire que les tagsets sont sous-spécifiés et comportent un nombre limité d’items.