A des fins de conversion de données

Vers le Dublin Core

Le tableau de conversion d'EAD vers Dublin Core décrit les principes de conversion EAD => Dublin Core mis en oeuvre par Calames

Le chapitre "Ouvrir un export csv dans un tableur" détaille les spécificités de la tabulation du fichier exporté.

L'export tabulé DublinCore-CSV

L'export DublinCore-CSV permet d'exporter chaque niveau descriptif (y compris le haut niveau <archdesc>) d'un fichier EAD sous forme d'une ligne de tableur, dont chaque colonne correspond à des catégories d'informations en Dublin Core (rappelées dans les en-têtes du fichier résultat).

Le modèle d'export correspond aux mêmes spécifications que l'Export professionnel XML "DC simple" décrites dans le tableau de conversion d'EAD vers Dublin Core (colonne centrale), à quelques différences près :

  • il est recommandé de renseigner manuellement, dans le fichier Calames la valeur de l'attribut ID de <archdesc> (de manière à ce que la ligne exportée correspondante soit bien pourvue d'un "dc:identifier")

    par exemple, renseigner <archdesc id="FileId-304"> pour l'instrument de recherche portant le numéro 304 dans la base Calames

  • la répétabilité des informations (en plusieurs colonnes autant que de besoin) est réservée aux champs dc:creator, dc:contributor, dc:subject, dc:language, et dc:format <(physfacet>)

  • les points d'accès figurant dans les niveaux descriptifs ancêtres ne sont pas intégrés dans dc:creator, dc:contributor et dc:subject

  • la mention "[date de l'ensemble]" n'apparaît pas lorsqu'une datation ancestrale est exploitée dans la colonne (unique et non rendue répétable) dc:date

  • en cas de <genreform type="type de document"> multiple au sein d'un même <c>, l'export des données normalisées correspondantes se fait dans une seule même cellule. Il n'y a d'héritage possible que venant d'un seul et unique <genreform type="type de document"> (conformément aux préconisations du Manuel de catalogage Calames)

  • deux colonnes sont prévues pour dc:description, la 1ère pour le contenu de <scopecontent>, la 2éme correspondant à la liste des cotes et intitulés des <c> enfants lorsqu'il y en a

  • afin de ne pas corrompre les données CSV, les guillemets droits doubles (") qui seraient présentes dans des chaînes de caractères exportées sont remplacés dans le fichier résultat par deux simples quotes (' ').

Exploitation du fichier exporté

Le fichier résultat peut être enregistré sans extension : ouvrir le fichier dans un tableur comme Excel > aller dans Nouveau classeur > Données (externes) > Fichier texte > sélectionner votre fichier résultat > Type de données d'origine "délimité".

Choisir impérativement

  • "65001 Unicode UTF8" comme codage d' "Origine du fichier"

  • séparateur "tabulation"

  • identificateur de texte en mode guillemets droits double (")

  • Format des données en colonne "standard"

  • Terminer en sélectionnant l'abscisse et l'ordonnée de départ du tableau.

L'export DublinCore-CSV-Filtre

L'export DublinCore-CSV-Filtre permet d'obtenir un ou plusieurs niveaux descriptifs (à l'exception du haut niveau <archdesc>) sous forme d'une ligne de tableur, dont chaque colonne correspond à des catégories d'informations en Dublin Core (rappelées dans les en-têtes du fichier résultat).

Le modèle d'export est globalement identique à "DublinCore-CSV" (sans filtre).

Pour cet export en particulier, il est nécessaire de respecter certaines règles dans la composition des expressions XPath

Les hauts niveaux descriptifs des fichiers EAD (informations figurant dans <archdesc> à l'exclusion de <dsc>) ne peuvent pas être atteints : le seul moyen de les obtenir est de faire emploi de l'export sans filtre DublinCore-CSV et de récupérer la première ligne de résultat, en ayant pris soin par ailleurs de renseigner l'attribut ID de <archdesc> avec l'identifiant interne à Calames.

ExempleExemples de filtre sur des critères de position

Seuls les niveaux strictement désignés par l'expression seront exportés : les composants descendants, sauf mention explicite dans l'xpath, sont ignorés

  • Pour exporter uniquement les composants de 1er niveau :

    Exemple : //dsc/c

  • Pour exporter plusieurs composants non contigus d'un même fichier, il faut utiliser le pipe |, qui sert a exprimer l'opérateur booléen OU

    Exemple : //c[@id=''id1''] | //c[@id=''id2''] | //c[@id=''id3'']

ExempleExemples de filtre sur des critères de contenu

  • Exemple pour exporter tous les composants décrivant des documents numérisés ://dsc/descendant-or-self::c[dao | daogrp]

  • Exemple pour exporter tous les composants qui ont un <unitid> d'un autre type que "cote" ://dsc/descendant-or-self::c[did/unitid[not(@type=''cote'')]]

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames

ComplémentCaractères réservés dans XML

Pour ses propres besoins, xml a des caractères réservés indispensables à son expression. Lorsqu'il y a besoin d'utiliser ces mêmes caractères sans qu'xml les interprète dans son langage, il faut les remplacer dans une valeur d'attribut NORMAL ou dans une url en HREF comme le tableau ci-dessous l'indique :

Caractères réservés

interprétation xml

combinaison à saisir en remplacement

exemple d'usage

<

balise ouvrante

&lt;

ou &#60;

Inférieur dans un xpath

ou dans un PCData de mathématique

>

balise fermante

&gt;

ou &#62;

Supérieur dans un xpath

ou dans un PCData de mathématique

''

encadre une valeur d'attribut

&quot;

ou &#34;

Des guillements dans la forme d'autorité figurant dans l' attribut NORMAL d'un titre

&

caractère d'échappement

&amp ;

ou &#38 ;

Esperluette dans la forme d'autorité figurant dans l' attribut NORMAL d'une collectivité

'

Simple quote

&apos;

ou &#8217;

Apostrophe dans dans la forme d'autorité figurant dans l' attribut NORMAL d'une collectivité ou d'un titre notamment

  • Autres caractères dont la présence dans les URL peut entrainer des réécritures à la publication et les rendre inopérantes : les accolades { ou }, le signe plus +, le %

  • Les chaine de caractères interprétés comme des codes hexadécimaux (cf tableau ci-dessus) ne peuvent figurer dans des URL au sens littéral : ils seront convertis en caractère réservé (exemple la chaine %3C sera automatiquement interprété comme encodant le caractère « < »)

L'export en DublinCore simple ou DublinCore Qualifié

Les deux exports à sortie XML DublinCoreSimple (DC simple) et DublinCoreQualifie (DC qualifié) font abstraction des conditions et besoins propres au moissonnage via le protocole OAI-PMH.

La structure du fichier résultat a donc été adaptée aux conditions d'une transformation XML classique :

  • la racine de ce fichier est un élément <ListRecords> (de préférence à <GetRecord> qui n'en est qu'un cas particulier). Chaque composant, chaque niveau descriptif exporté fait l'objet d'un élément <record>, subdivisé avec une en-tête <header> et une partie <metadata>.

  • l'en-tête <header> est appauvrie, du fait du contexte (hors moissonnage), et des limites techniques de Calames Prod qui ne permet pas de générer l'élément <datestamp> : le cas échéant, la datation de l'export doit donc être reconstituée après coup.

L'export professionnel Dublin Core "simple", respecte les spécifications déjà en place dans le cadre du service OAI de Calames, mais prend également en compte, par héritage, dans <dc:identifier>, <dc:date>, <dc:language>, <dc:creator>, <dc:contributor>, <dc:subject>, <dc:type> et <dc:rights> les données présentes dans les ancêtres du niveau descriptif exporté, et suit autant que possible les bonnes pratiques Dublin Core de la BnF.

L'export professionnel Dublin Core "qualifié" (éléments dcterms) vise une conversion maximale des données EAD en éléments DCMI.

Les règles de conversion de chacun de ces deux exports correspondent aux 2e et 3e colonne du tableau des mappings EAD - Dublin Core.

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames

Vers Unimarc

Le tableau de conversion de l'EAD au MarcXML détaille la conversion appliquée.

Il est indispensable de renseigner le filtre d'export :

  • pour tous les composants : //c

  • pour les composants qui ont un <unitid> (exclut les parents sans unitid) : //c[../did/unitid]

Le fichier obtenu est nécessairement appauvri par rapport à l'encodage EAD natif (perte de la hiérarchisation et inadaptation du langage Marc pour traduire l'héritage des données ; certaines balises et attributs EAD n'ont pas d'équivalent en Unimarc comme <accruals>, <appraisal>, <arrangement>, etc.).

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames