Les différents modèles d'export

Ce chapitre présente uniquement les modèles autres que les 3 modèles xml Natif, Natif-Déclaration et Kill-id présentés dans le manuel de l'outil de catalogage

A des fins d'affichage

L'export IRComplet_htmlpourpdf

L'export IRComplet_htmlpourpdf permet d'exporter l'ensemble des données du <archdesc> et de tous les composants <c> dans un document html dont la mise en forme et la structure reproduit au mieux l'affichage dans l'interface publique.

Liens cliquables dans le fichier html exporté

  • Les url de chaque composant <c> sont reconstitués dans le champ « Adresse url ».

  • Les URI des entités IdRef correspondant aux éléments d'indexation liés à IdRef, sont cliquables à côté de la forme normalisée de chaque élément d'indexation.

  • Les autres liens (HREFdes <archref>, <bibref>, <extref>,dao> et <daoloc>) sont visibles et cliquables avec l'intitulé défini dans les données EAD ou l'intitulé par défaut.

Truc & astuce

  • Il est possible de reconstituer en html un unique instrument de recherche constitué de différents fichiers EAD liés entre eux dans Calames, en fusionnant dans un éditeur html le code des fichiers html exporté en IRComplet_htmlpourpdf, en veillant à ne copier que les parties pertinentes.

  • Il est possible de convertir en pdf le fichier html obtenu par l'export IRComplet_htmlpourpdf.

ConseilFaire un lien au fichier html ou pdf obtenu dans le <archdesc>

Si le fichier html ou pdf obtenu à partir de l'export IRComplet_htmlpourpdf est mis en ligne par l'établissement, un lien vers ce fichier peut être renseigné dans un <archdesc><processinfo> du document EAD publié dans Calames.

L'export Liste

L'export Liste extrait, dans une page html, sous forme de liste à puces arborescente  :

  • les informations des niveaux descriptifs d'un document EAD : <unitid>, <unittitle>, <scopecontent>, l'ensemble des sous-éléments de <physdesc> (n'exporte donc pas les mentions qui figurent directement en "PCDATA" de <physdesc>) ;

  • les points d'accès ;

  • les chemins XPath complets de chaque <c>.

A des fins de conversion de données

Vers le Dublin Core

Le tableau de conversion d'EAD vers Dublin Core décrit les principes de conversion EAD => Dublin Core mis en oeuvre par Calames

Le chapitre "Ouvrir un export csv dans un tableur" détaille les spécificités de la tabulation du fichier exporté.

L'export tabulé DublinCore-CSV

L'export DublinCore-CSV permet d'exporter chaque niveau descriptif (y compris le haut niveau <archdesc>) d'un fichier EAD sous forme d'une ligne de tableur, dont chaque colonne correspond à des catégories d'informations en Dublin Core (rappelées dans les en-têtes du fichier résultat).

Le modèle d'export correspond aux mêmes spécifications que l'Export professionnel XML "DC simple" décrites dans le tableau de conversion d'EAD vers Dublin Core (colonne centrale), à quelques différences près :

  • il est recommandé de renseigner manuellement, dans le fichier Calames la valeur de l'attribut ID de <archdesc> (de manière à ce que la ligne exportée correspondante soit bien pourvue d'un "dc:identifier")

    par exemple, renseigner <archdesc id="FileId-304"> pour l'instrument de recherche portant le numéro 304 dans la base Calames

  • la répétabilité des informations (en plusieurs colonnes autant que de besoin) est réservée aux champs dc:creator, dc:contributor, dc:subject, dc:language, et dc:format <(physfacet>)

  • les points d'accès figurant dans les niveaux descriptifs ancêtres ne sont pas intégrés dans dc:creator, dc:contributor et dc:subject

  • la mention "[date de l'ensemble]" n'apparaît pas lorsqu'une datation ancestrale est exploitée dans la colonne (unique et non rendue répétable) dc:date

  • en cas de <genreform type="type de document"> multiple au sein d'un même <c>, l'export des données normalisées correspondantes se fait dans une seule même cellule. Il n'y a d'héritage possible que venant d'un seul et unique <genreform type="type de document"> (conformément aux préconisations du Manuel de catalogage Calames)

  • deux colonnes sont prévues pour dc:description, la 1ère pour le contenu de <scopecontent>, la 2éme correspondant à la liste des cotes et intitulés des <c> enfants lorsqu'il y en a

  • afin de ne pas corrompre les données CSV, les guillemets droits doubles (") qui seraient présentes dans des chaînes de caractères exportées sont remplacés dans le fichier résultat par deux simples quotes (' ').

Exploitation du fichier exporté

Le fichier résultat peut être enregistré sans extension : ouvrir le fichier dans un tableur comme Excel > aller dans Nouveau classeur > Données (externes) > Fichier texte > sélectionner votre fichier résultat > Type de données d'origine "délimité".

Choisir impérativement

  • "65001 Unicode UTF8" comme codage d' "Origine du fichier"

  • séparateur "tabulation"

  • identificateur de texte en mode guillemets droits double (")

  • Format des données en colonne "standard"

  • Terminer en sélectionnant l'abscisse et l'ordonnée de départ du tableau.

L'export DublinCore-CSV-Filtre

L'export DublinCore-CSV-Filtre permet d'obtenir un ou plusieurs niveaux descriptifs (à l'exception du haut niveau <archdesc>) sous forme d'une ligne de tableur, dont chaque colonne correspond à des catégories d'informations en Dublin Core (rappelées dans les en-têtes du fichier résultat).

Le modèle d'export est globalement identique à "DublinCore-CSV" (sans filtre).

Pour cet export en particulier, il est nécessaire de respecter certaines règles dans la composition des expressions XPath

Les hauts niveaux descriptifs des fichiers EAD (informations figurant dans <archdesc> à l'exclusion de <dsc>) ne peuvent pas être atteints : le seul moyen de les obtenir est de faire emploi de l'export sans filtre DublinCore-CSV et de récupérer la première ligne de résultat, en ayant pris soin par ailleurs de renseigner l'attribut ID de <archdesc> avec l'identifiant interne à Calames.

ExempleExemples de filtre sur des critères de position

Seuls les niveaux strictement désignés par l'expression seront exportés : les composants descendants, sauf mention explicite dans l'xpath, sont ignorés

  • Pour exporter uniquement les composants de 1er niveau :

    Exemple : //dsc/c

  • Pour exporter plusieurs composants non contigus d'un même fichier, il faut utiliser le pipe |, qui sert a exprimer l'opérateur booléen OU

    Exemple : //c[@id=''id1''] | //c[@id=''id2''] | //c[@id=''id3'']

ExempleExemples de filtre sur des critères de contenu
  • Exemple pour exporter tous les composants décrivant des documents numérisés ://dsc/descendant-or-self::c[dao | daogrp]

  • Exemple pour exporter tous les composants qui ont un <unitid> d'un autre type que "cote" ://dsc/descendant-or-self::c[did/unitid[not(@type=''cote'')]]

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames

ComplémentCaractères réservés dans XML

Pour ses propres besoins, xml a des caractères réservés indispensables à son expression. Lorsqu'il y a besoin d'utiliser ces mêmes caractères sans qu'xml les interprète dans son langage, il faut les remplacer dans une valeur d'attribut NORMAL ou dans une url en HREF comme le tableau ci-dessous l'indique :

Caractères réservés

interprétation xml

combinaison à saisir en remplacement

exemple d'usage

<

balise ouvrante

&lt;

ou &#60;

Inférieur dans un xpath

ou dans un PCData de mathématique

>

balise fermante

&gt;

ou &#62;

Supérieur dans un xpath

ou dans un PCData de mathématique

''

encadre une valeur d'attribut

&quot;

ou &#34;

Des guillements dans la forme d'autorité figurant dans l' attribut NORMAL d'un titre

&

caractère d'échappement

&amp ;

ou &#38 ;

Esperluette dans la forme d'autorité figurant dans l' attribut NORMAL d'une collectivité

'

Simple quote

&apos;

ou &#8217;

Apostrophe dans dans la forme d'autorité figurant dans l' attribut NORMAL d'une collectivité ou d'un titre notamment

  • Autres caractères dont la présence dans les URL peut entrainer des réécritures à la publication et les rendre inopérantes : les accolades { ou }, le signe plus +, le %

  • Les chaine de caractères interprétés comme des codes hexadécimaux (cf tableau ci-dessus) ne peuvent figurer dans des URL au sens littéral : ils seront convertis en caractère réservé (exemple la chaine %3C sera automatiquement interprété comme encodant le caractère « < »)

L'export en DublinCore simple ou DublinCore Qualifié

Les deux exports à sortie XML DublinCoreSimple (DC simple) et DublinCoreQualifie (DC qualifié) font abstraction des conditions et besoins propres au moissonnage via le protocole OAI-PMH.

La structure du fichier résultat a donc été adaptée aux conditions d'une transformation XML classique :

  • la racine de ce fichier est un élément <ListRecords> (de préférence à <GetRecord> qui n'en est qu'un cas particulier). Chaque composant, chaque niveau descriptif exporté fait l'objet d'un élément <record>, subdivisé avec une en-tête <header> et une partie <metadata>.

  • l'en-tête <header> est appauvrie, du fait du contexte (hors moissonnage), et des limites techniques de Calames Prod qui ne permet pas de générer l'élément <datestamp> : le cas échéant, la datation de l'export doit donc être reconstituée après coup.

L'export professionnel Dublin Core "simple", respecte les spécifications déjà en place dans le cadre du service OAI de Calames, mais prend également en compte, par héritage, dans <dc:identifier>, <dc:date>, <dc:language>, <dc:creator>, <dc:contributor>, <dc:subject>, <dc:type> et <dc:rights> les données présentes dans les ancêtres du niveau descriptif exporté, et suit autant que possible les bonnes pratiques Dublin Core de la BnF.

L'export professionnel Dublin Core "qualifié" (éléments dcterms) vise une conversion maximale des données EAD en éléments DCMI.

Les règles de conversion de chacun de ces deux exports correspondent aux 2e et 3e colonne du tableau des mappings EAD - Dublin Core.

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames

Vers Unimarc

Le tableau de conversion de l'EAD au MarcXML détaille la conversion appliquée.

Il est indispensable de renseigner le filtre d'export :

  • pour tous les composants : //c

  • pour les composants qui ont un <unitid> (exclut les parents sans unitid) : //c[../did/unitid]

Le fichier obtenu est nécessairement appauvri par rapport à l'encodage EAD natif (perte de la hiérarchisation et inadaptation du langage Marc pour traduire l'héritage des données ; certaines balises et attributs EAD n'ont pas d'équivalent en Unimarc comme <accruals>, <appraisal>, <arrangement>, etc.).

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames

A des fins de contrôle qualité

Le cas particulier de Visio_controle

L'export Visio_controle est très particulier. Il ne vise par à récupérer les données exportées à des fins d'exploitation dans un autre environnement ou à des fins de réimport dans Calames.

Il vise à produire un ensemble de statistique et un contrôle du respect d'un certain nombre de bonnes pratiques de l'EAD en bibliothèques et des règles spécifiques à Calames.

L'export Valeurs_controle-Filtre

L'export Valeurs_controle-Filtre permet de récupérer une seule et unique valeur soit celle d'un attribut, soit celle du contenu textuel d'un élément, quel que soit son emplacement dans le fichier EAD, ainsi que l'ID du composant dans laquelle elle se situe.

Il vise à faciliter le contrôle de la conformité des valeurs type et l'identification des composants où une valeurs est à reprendre.

Le fichier txt résultat est un fichier tabulé à 2 colonnes avec

  • identifiant (ID du composant ou la mention archdesc pour une valeur en haut niveau dans l'ordre du fichier EAD

  • le signe ¤ comme séparateur

  • La valeur ciblée par le filtre

Il précise en entête dans la rubrique « Résultat(s) avec le filtre : » l'élément EAD et son éventuel attribut ciblé par le xpath du filtre d'export

ExempleExemples de filtre type

Attention

Si le filtre vise un attribut sans préciser son élément, et que cet attribut existe dans plusieurs éléments différents, par exemple : @href, seul l'élément parent de la première occurrence de l'attribut dans le fichier EAD est mentionné dans « Résultat(s) avec le filtre : »

RemarqueUn usage contraint

Cet export est conçu pour vous permettre de contrôler la conformité des valeurs d'attribut, ou l'une formule type et de pouvoir tres facilement filtrer dans un tableur les composants avec une valeurs à corriger

  • Il est nécessaire faire plusieurs exports pour produire les listes des différents attributs d'un même élément, ou d'un attribut et du contenu textuel d'un même élément EAD.

  • Si la correction est massive et systématique, il peut donner lieu à une demande de modification de masse à l'Abes

  • Si vous avez besoin de contenu plus riches (contenu complet de <physdesc> par exemple), faire la demande sur le guichet ABESstp Calames pro, domaine « Exports et publications ».

A des fins de traitement xml

Les exports Natif-C et Natif-Filtre

  • Natif-C exporte uniquement le ou les fragments ciblés par une expression Xpath ;

  • Natif-Filtre permet de conserver les éléments de haut niveau et n'applique le filtre qu'au niveau des composants (à savoir, au sein de l'élément <dsc>).

Dans un cas comme dans l'autre, il est nécessaire d'employer une expression XPath valide.

Dès lors que l'expression porte sur plus d'un composant <c>, le résultat d'un export Natif-C ne respecte plus la syntaxe XML (en l'absence d'élément racine, on n'a plus de fichier "bien formé").

ExempleExemple 1

Un export avec l'expression //c[@level=''item''] aura pour fichier résultat,

  • soit un rassemblement des composants <c> de niveau "item" (Natif-C),

  • soit une copie partielle du fichier mais avec un <dsc> restreint aux seuls composants de niveau "item" (ainsi que les sous-composants descendants le cas échéant). (Natif-filtre)

ExempleExemple 2

Soit un fichier dont seul le premier composant de 1er niveau m'intéresse. L'expression Xpath //dsc/c[1] permettra :

  • soit d'obtenir le code de ce seul composant (et de sa descendance) (Natif-C)

  • soit d'obtenir un fichier EAD dont le <dsc> est restreint à ce composant (et à sa descendance) (Natif-filtre)

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames

Les trois autres modèles d'exports XML de fonctionnement courant, Natif, Natif-Déclaration et Kill-id sont présentés dans le manuel de l'outil de catalogage.

A des fins d'alimentation de Wikimedia Commons

Ces deux modèles d'export ont été conçus pour générer un tableau conforme aux métadonnées descriptives d'un document numérique attendues par Wikimedia Commons et exploitable par l'outil Pattypan : un chapitre dédié détaille la procédure complète.

Un tableau à deux onglets détaille, pour chaque modèle d'export, les règles de conversion depuis les données EAD

L'export Wikimedia_artwork_CSV filtre

L'export Wikimedia_artwork_CSV filtre permet d'exporter au format tabulé les données de chaque niveau descriptif ciblé par le filtre dans un tableau à la structuration conforme au template Artwork de Wikimedia Commons

Il concerne des unités documentaires :

L'export Wikimedia_book_CSV filtre

L'export Wikimedia_book_CSV filtre permet d'exporter au format tabulé les données de chaque niveau descriptif ciblé par le filtre dans un tableau à la structuration conforme au template Book de Wikimedia Commons

Il concerne des unités documentaires textuelles. Il est requis dans le cas des documents numérisés en plusieurs vues (liasses d’archives, manuscrits, correspondances,… )

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames