Source de ce document:
http://hdl.handle.net/11041/sldr000735/export-fr.txt
English version:
http://hdl.handle.net/11041/sldr000735/export-en.txt
Date : 15 avril 2015
Notes sur la base de données « Chants de la mouture au Maharashtra »
http://hdl.handle.net/11041/sldr000735
Serveur thématique : http://ccrss.org/database/
SITUATION DU PROJET
L'équipe « Chants de la mouture » (Asha Ogale, Rajani Khaladka, Jitendra Maid, Bernard Bel) travaille actuellement sur :
• La traduction des textes de chants en anglais et en français
• L'édition des textes en marathi, particulièrement pour contrôler la régularité de l'orthographe, sachant qu'il s'agit de transcriptions d'une langue orale
• Le contrôle de la régularité de transcription de mots répétés comme les noms de lieux, les castes etc.
• La conversion du devanagari en devanagari romanisé
• L'extraction de fichiers sonores classés par leurs numéros d'identification
J'ai un engagement personnel vis-à-vis de Hema Rairkar et Guy Poitevin pour la préservation et la publication de ce patrimoine monumental qu'ils ont commencé à collecter il y a trente ans. L'export des bases de données au format Unicode est une première étape vers la construction d'interfaces conviviales au service des experts mais aussi des passionnés de culture du monde entier.
Bernard Bel
bernarbel(arobase)gmail.com
http://en.wikipedia.org/wiki/User:Belbernard
------------------------
POUR LES DOCUMENTALISTES
Le répertoire DATABASES contient toutes les bases de données sur les chants de la mouture dans des formats destinées à l'archivage pérenne et la réutilisation de ces bases :
• Texte tabulé (TAB)
• Texte aux valeurs séparées par des virgules (CSV, compatible RFC 4180)
• XML
Par exemple,
• "SONGS.fp5" est le fichier source des textes de chants (Filemaker™ Pro 5-6, non archivé)
• "SONGS_export.tab" est son export en texte tabulé
• "SONGS_export.xml" est son export en XML
• "SONGS_export.csv" est son export en CSV
• "SONGS_export.txt" est un export en pur texte des transcriptions, traductions et références d'enregistrement audio
Des échantillons des exports (contenant les premières 75 fiches) sont aussi fournis, exemple "SONGS_export_sample.xml". Ils seront utiles pour mettre au point des procédures d'importation sans utiliser des fichiers de grande taille.
Tous les fichiers exportés sont codés en Unicode 8 bits (UTF8).
Les fichiers exportés sont directement accessibles via leurs identifiants pérennes, par exemple :
• http://hdl.handle.net/11041/sldr000735/CLASSIFICATION_export.xml
• http://hdl.handle.net/11041/sldr000735/LOCATIONS_export.tab
• http://hdl.handle.net/11041/sldr000735/PERFORMERS_export.csv
Les fichiers exportés contiennent des textes en alphabet devanagari, en devanagari romanisé et en anglais ou français. L'orthographe la plus fiable est celle du devanagari car les saisies ont été faites en marathi. Toutefois, grâce à la technique de transcodage automatique, les textes en devanagari romanisé (ISO 15919, nasalisation stricte) sont le reflet exact du devanagari original. Il est donc possible de lancer des requêtes ou des analyses à partir du devanagari romanisé.
Exemple :
• कावळा करी कोट एवढ बाभळीच्या बुडी / अस्तुरी येडी जात माया पुरुषाला थोडी
• kāvaḷā karī kōṭa ēvaḍha bābhaḷīcyā buḍī / asturī yēḍī jāta māyā puruṣālā thōḍī
• The crow builds a nest at the foot of a huge acacia / Womankind is naïve! Man has little affection
• Le corbeau fait son nid au pied d'un énorme acacia / Sotte race de femme ! L'homme a peu de tendresse
Nous utilisons l'anglais britannique pour l'orthographe des traductions et commentaires.
La base de données contient 109997 chants dont 4595 ont été enregistrés. Les enregistrements sont disponibles en archive :
http://hdl.handle.net/11041/sldr000717
Les liens vers les enregistrements (aux formats AIFF et MP3) sont contenus dans les champs 'recording_AIFF_URL' et 'recording_MP3_URL' des fichiers exportés de SONGS et RECORDINGS. Ces liens sont basés sur des identifiants pérennes. Tous les liens deviendront actifs une fois achevé le travail d'extraction des extraits sonores.
Exemples :
• http://hdl.handle.net/11041/sldr000717/uvs-01_07.mp3
• http://hdl.handle.net/11041/sldr000717/uvs-05_03.aif
Les liens MP3 sont publics et peuvent être encapsulés dans un code de streamer pour intégrer le passage sonore à une page web.
Des liens vers des images (extraites des bases de données) figurent dans les fichiers d'exportation de PERFORMERS et LOCATIONS.
Exemples :
• http://hdl.handle.net/11041/sldr000717/PERFORMERS_194.png
• http://hdl.handle.net/11041/sldr000717/LOCATIONS_72-h2.png
Chaque fiche d'un fichier d'exportation contient une date de modification. Cette date doit être contrôlée avec soin car les fichiers peuvent être mis à jour sans préavis. Par conséquent, en réutilisant ces données, veillez à ce que les dates de modification soient mentionnées dans vos publications.
--------------------
POUR LES TECHNICIENS
Il n'est plus possible d'écrire du devanagari (ISCII) directement dans les bases Filemaker 5-6. C'est pourquoi les corrections ont été réalisées avec TextEdit dans un fichier "SongCorrections.txt" directement encodé en UTF8. Ces formes corrigées sont utilisées en remplacement des textes exportés pour les chants concernés. De la même manière, les corrections en devanagari romanisé ont été saisies en UTF8 avec TextEdit dans un fichier "RomanCorrections.txt".
Les textes devanagari (en marathi) étaient codés avec le standard ISCII dans les bases de données Filemaker. (Ce standard indien avait été adopté par Apple pour le codage des langues indiennes.) J'ai implémenté une technique (dans Bol Processor BP2, http://hdl.handle.net/11041/sldr000753) pour transcoder depuis le devanagari/ISCII vers devanagari romanisé avec la fonte MyTymes fournie par l'École française d'Extrême-Orient (EFEO). Le programme présenté ici convertit le Devanagari/ISCII et le Roman/MyTymes en UTF8, ce qui rend les textes accessibles à tout ordinateur quel que soit l'alphabet utilisé.
La conversion ISCII vers UTF8 a été grandement facilitée par l'utilisation de la classe PHP "iscii2utf8" écrite par Sunish K. Kurup (sunish_mv@rediffmail.com).
Par ailleurs, il est nécessaire de réaliser une translittération directe du devanagari/UTF8 vers devanagari romanisé pour les textes corrigés ; nous utilisons pour cela le logiciel ‘Aksharamukha’ de Vinodh Rajan (http://www.virtualvinodh.com/aksharamkh/aksharamukha.php). Quelques règles de réécriture sont ensuite appliquées pour respecter le standard ISO 15919 en nasalisation stricte.
Tous les sauts à la line HTML ("
" ou "
") ont été convertis en "
".
Les sauts de ligne codés (LF = ASCII 11) ont été préservés dans les fichiers XML, mais remplacés par "
" dans les fichiers TAB et CSV.
Toute fiche de la base de données SONGS contient au minimum un saut de ligne encodé séparant les deux lignes du texte du chant en devanagari, devanagari romanisé ou ses traductions.
Si un champ est déclaré "repeat" dans les 'settings', les saut de lignes codés sont interprétés comme séparateurs des occurrences multiples de ce champ, ce qui produit plusieurs instances de l'élément correspondant dans le fichier XML. C'est le cas de 'photo_landscape_url' and 'photo_portrait_url' dans LOCATIONS.
Dans tous les fichiers exportés, le premier champ est la clé primaire de la table. Ce champ apparaît sous le même nom dans les tables qui lui sont reliées. Observer la cinquième ligne de :
• http://hdl.handle.net/11041/sldr000735/SONGS-settings.txt
• http://hdl.handle.net/11041/sldr000735/PERFORMERS-settings.txt
• http://hdl.handle.net/11041/sldr000735/LOCATIONS-settings.txt
• http://hdl.handle.net/11041/sldr000735/RECORDINGS-settings.txt
• http://hdl.handle.net/11041/sldr000735/TUNES-settings.txt
• http://hdl.handle.net/11041/sldr000735/CLASSIFICATION-settings.txt
Le dernier champ de chaque fiche est celui de sa date de modification : 'date_modified'.