Comprendre et exploiter les exports

La procédure d'export et les principaux modèles xml et Visio_controle sont présentés dans le manuel de l'outil de catalogage

Le principe des exports

Les différents modèles d'export

Objectif principal

Exporte le Document EAD complet :

filtre non pris en compte

Exporte des composants précis :

filtre requis

Exporte des éléments de composants précis :

filtre requis

Extension recommandée

traitement xml

Modèle Natif

Modèle Natif-Déclaration

Modèle Kill-id

Modèle Natif-C

Modèle Natif-Filtre

.xml

Affichage

Modèle IRComplet_htmlpourpdf

.html

Modèle Liste

.html

Conversion

Modèle DublinCore-CSV (*)

Modèle DublinCore-CSV filtre (*)

.csv

Modèle DublinCoreSimple(*)

Modèle DublinCoreQualifie(*)

.xml

Modèle MarcXML(*)

.xml

Modèle MarcISO2709

.mrc

Modèle MarcISO2709UTF8

.mrk8

Contrôle qualité

Modèle Visio_controle

.html

Modèle Valeurs_controle-Filtre

.txt

Alimentation de Wikimedia Commons

Modèle Wikimedia_book_CSV filtre (*)

Modèle Wikimedia_artwork_CSV filtre (*)

.csv ou .txt

(*) : L'xslt de ce modèle est publié sous licence CeCILL sur le github de l'Abes

Voir ici les spécificités de chaque modèle.

Exporter c'est appliquer un ensemble de transformations définies dans un xslt

Exporter depuis Calames consiste à appliquer un xslt, fichier de transformation du fichier xml EAD de départ.

Pour accéder à l'xslt appliqué par le modèle d'export

Cliquer sur le bouton Edit du pop up consacré à l'export : un nouveau champ apparaît alors dans la partie inférieure qui permet de copier l'xslt.

Il est alors possible de l'exporter et de l'adapter à un besoin ponctuel pour l'utiliser dans un éditeur XML extérieur à Calames sur le résultat xml d'un export Natif-Déclaration.

Le principe du filtre d'export

Les modèles d'export qui s'appliquent uniquement à des composants (voire des éléments EAD précis) requièrent la saisie d'un XPath dans le champ Filtre de la fenêtre d'export. L'XPath permet d'expliciter le chemin XML dans un ou plusieurs document EAD afin d'en sélectionner des composants ou des éléments EAD.

  • La saisie d'un filtre est requise en cas d'export Natif-C, Natif-Filtre, MarcXML, MarcISO2709, MarcIso2709UTF8, DublinCoreSimple, DublinCoreQualifie, EvalXpath.

  • Le champ Filtre s'affiche systématiquement, même si l'export sélectionné ne le prend pas en compte (voir le tableau des différents modèles d'exports ci-dessus). Dans le cas des modèles où le filtre est inopérant, l'export fonctionne normalement, même si l'XPath d'exemple affiché par défaut dans le champ "Filtre" ne correspond à rien.

Attention

L'xpath présent par défaut à titre d'exemple : //c[@id=''cgm-1234578''] ne correspond à aucun cas précis : l'ID "cgm-1234578" n'est pas un ID présent dans Calames

Cet xpath exemple doit impérativement être modifié pour que fonctionnent les exports requérant un "Filtre".

Si, dans le champ Filtre, aucun xpath n'est saisi, que l'xpath par défaut n'est pas adapté, ou que l'xpath corrigé ne correspond à rien dans le ou dans l'un ou l'autre des documents EAD en cours d'export, le fichier résultat de l'export propre au fichier concerné ne contient aucun composant et affiche une alerte :

(Rappel : il y a toujours un fichier résultat d'export par fichier EAD dans Calames, et donc autant de fichier résultat que de clés saisies dans le champ Clés du formulaire d'export

La syntaxe à utiliser dans le champ Filtre est celle des expressions XPath.

Pour en savoir plus sur cette syntaxe consulter ce tutoriel : "XPath, XSLT : des langages XML appliqués à l'EAD".

Attention

Il y a une exception à l'application de cette syntaxe : le filtre dans Calames ne reconnaît pas les caractères guillemets ou double quotes ("). Il est donc nécessaire de leur substituer deux caractères apostrophes ou simples quotes (') au sein des expressions Xpath devant en comporter.

ExempleExemple pré-saisi dans le champs Filtre

composant <c> à l'identifiant fictif dans la syntaxe attendue par Calames

//c[@id=''cgm-1234578'']

Il est composée de la manière attendue : la valeur de l'attribut identifiant est bien encadrée par 2 x 2 simples quotes.

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames

Appliquer un XPath à plusieurs fichiers EAD lors d'un même export

Il est possible d'appliquer un XPath à plusieurs fichiers EAD simultanément lors d'un export. Saisir l'XPath dans le champ Filtre de la fenêtre d'export, puis saisir les clés de chaque fichier séparées par une virgule sans espace dans le champ "Clés".

Attention

Comme le précise la procédure d'export simultané de plusieurs fichiers EAD, même pour un export avec filtre, il y a autant de fichier résultats que de fichiers EAD concernés par l'export : selon les besoins, ils doivent ensuite être éventuellement fusionnés

Développer de nouveaux modèles d'export

L'Abes peut incrémenter de nouveaux modèles d'export à des fins d'usage régulier qu'il s'agisse de traitement générique pouvant être proposé à tous les établissements ou de traitements spécifiques pour alimenter un outil propre à l'établissement.

Les différents modèles d'export

Ce chapitre présente uniquement les modèles autres que les 3 modèles xml Natif, Natif-Déclaration et Kill-id présentés dans le manuel de l'outil de catalogage

A des fins d'affichage

L'export IRComplet_htmlpourpdf

L'export IRComplet_htmlpourpdf permet d'exporter l'ensemble des données du <archdesc> et de tous les composants <c> dans un document html dont la mise en forme et la structure reproduit au mieux l'affichage dans l'interface publique.

Liens cliquables dans le fichier html exporté
  • Les url de chaque composant <c> sont reconstitués dans le champ « Adresse url ».

  • Les URI des entités IdRef correspondant aux éléments d'indexation liés à IdRef, sont cliquables à côté de la forme normalisée de chaque élément d'indexation.

  • Les autres liens (HREFdes <archref>, <bibref>, <extref>,dao> et <daoloc>) sont visibles et cliquables avec l'intitulé défini dans les données EAD ou l'intitulé par défaut.

Truc & astuce
  • Il est possible de reconstituer en html un unique instrument de recherche constitué de différents fichiers EAD liés entre eux dans Calames, en fusionnant dans un éditeur html le code des fichiers html exporté en IRComplet_htmlpourpdf, en veillant à ne copier que les parties pertinentes.

  • Il est possible de convertir en pdf le fichier html obtenu par l'export IRComplet_htmlpourpdf.

ConseilFaire un lien au fichier html ou pdf obtenu dans le <archdesc>

Si le fichier html ou pdf obtenu à partir de l'export IRComplet_htmlpourpdf est mis en ligne par l'établissement, un lien vers ce fichier peut être renseigné dans un <archdesc><processinfo> du document EAD publié dans Calames.

L'export Liste

L'export Liste extrait, dans une page html, sous forme de liste à puces arborescente  :

  • les informations des niveaux descriptifs d'un document EAD : <unitid>, <unittitle>, <scopecontent>, l'ensemble des sous-éléments de <physdesc> (n'exporte donc pas les mentions qui figurent directement en "PCDATA" de <physdesc>) ;

  • les points d'accès ;

  • les chemins XPath complets de chaque <c>.

A des fins de conversion de données

Vers le Dublin Core

Le tableau de conversion d'EAD vers Dublin Core décrit les principes de conversion EAD => Dublin Core mis en oeuvre par Calames

Le chapitre "Ouvrir un export csv dans un tableur" détaille les spécificités de la tabulation du fichier exporté.

L'export tabulé DublinCore-CSV

L'export DublinCore-CSV permet d'exporter chaque niveau descriptif (y compris le haut niveau <archdesc>) d'un fichier EAD sous forme d'une ligne de tableur, dont chaque colonne correspond à des catégories d'informations en Dublin Core (rappelées dans les en-têtes du fichier résultat).

Le modèle d'export correspond aux mêmes spécifications que l'Export professionnel XML "DC simple" décrites dans le tableau de conversion d'EAD vers Dublin Core (colonne centrale), à quelques différences près :

  • il est recommandé de renseigner manuellement, dans le fichier Calames la valeur de l'attribut ID de <archdesc> (de manière à ce que la ligne exportée correspondante soit bien pourvue d'un "dc:identifier")

    par exemple, renseigner <archdesc id="FileId-304"> pour l'instrument de recherche portant le numéro 304 dans la base Calames

  • la répétabilité des informations (en plusieurs colonnes autant que de besoin) est réservée aux champs dc:creator, dc:contributor, dc:subject, dc:language, et dc:format <(physfacet>)

  • les points d'accès figurant dans les niveaux descriptifs ancêtres ne sont pas intégrés dans dc:creator, dc:contributor et dc:subject

  • la mention "[date de l'ensemble]" n'apparaît pas lorsqu'une datation ancestrale est exploitée dans la colonne (unique et non rendue répétable) dc:date

  • en cas de <genreform type="type de document"> multiple au sein d'un même <c>, l'export des données normalisées correspondantes se fait dans une seule même cellule. Il n'y a d'héritage possible que venant d'un seul et unique <genreform type="type de document"> (conformément aux préconisations du Manuel de catalogage Calames)

  • deux colonnes sont prévues pour dc:description, la 1ère pour le contenu de <scopecontent>, la 2éme correspondant à la liste des cotes et intitulés des <c> enfants lorsqu'il y en a

  • afin de ne pas corrompre les données CSV, les guillemets droits doubles (") qui seraient présentes dans des chaînes de caractères exportées sont remplacés dans le fichier résultat par deux simples quotes (' ').

Exploitation du fichier exporté

Le fichier résultat peut être enregistré sans extension : ouvrir le fichier dans un tableur comme Excel > aller dans Nouveau classeur > Données (externes) > Fichier texte > sélectionner votre fichier résultat > Type de données d'origine "délimité".

Choisir impérativement

  • "65001 Unicode UTF8" comme codage d' "Origine du fichier"

  • séparateur "tabulation"

  • identificateur de texte en mode guillemets droits double (")

  • Format des données en colonne "standard"

  • Terminer en sélectionnant l'abscisse et l'ordonnée de départ du tableau.

L'export DublinCore-CSV-Filtre

L'export DublinCore-CSV-Filtre permet d'obtenir un ou plusieurs niveaux descriptifs (à l'exception du haut niveau <archdesc>) sous forme d'une ligne de tableur, dont chaque colonne correspond à des catégories d'informations en Dublin Core (rappelées dans les en-têtes du fichier résultat).

Le modèle d'export est globalement identique à "DublinCore-CSV" (sans filtre).

Pour cet export en particulier, il est nécessaire de respecter certaines règles dans la composition des expressions XPath

Les hauts niveaux descriptifs des fichiers EAD (informations figurant dans <archdesc> à l'exclusion de <dsc>) ne peuvent pas être atteints : le seul moyen de les obtenir est de faire emploi de l'export sans filtre DublinCore-CSV et de récupérer la première ligne de résultat, en ayant pris soin par ailleurs de renseigner l'attribut ID de <archdesc> avec l'identifiant interne à Calames.

ExempleExemples de filtre sur des critères de position

Seuls les niveaux strictement désignés par l'expression seront exportés : les composants descendants, sauf mention explicite dans l'xpath, sont ignorés

  • Pour exporter uniquement les composants de 1er niveau :

    Exemple : //dsc/c

  • Pour exporter plusieurs composants non contigus d'un même fichier, il faut utiliser le pipe |, qui sert a exprimer l'opérateur booléen OU

    Exemple : //c[@id=''id1''] | //c[@id=''id2''] | //c[@id=''id3'']

ExempleExemples de filtre sur des critères de contenu
  • Exemple pour exporter tous les composants décrivant des documents numérisés ://dsc/descendant-or-self::c[dao | daogrp]

  • Exemple pour exporter tous les composants qui ont un <unitid> d'un autre type que "cote" ://dsc/descendant-or-self::c[did/unitid[not(@type=''cote'')]]

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames

ComplémentCaractères réservés dans XML

Pour ses propres besoins, xml a des caractères réservés indispensables à son expression. Lorsqu'il y a besoin d'utiliser ces mêmes caractères sans qu'xml les interprète dans son langage, il faut les remplacer dans une valeur d'attribut NORMAL ou dans une url en HREF comme le tableau ci-dessous l'indique :

Caractères réservés

interprétation xml

combinaison à saisir en remplacement

exemple d'usage

<

balise ouvrante

&lt;

ou &#60;

Inférieur dans un xpath

ou dans un PCData de mathématique

>

balise fermante

&gt;

ou &#62;

Supérieur dans un xpath

ou dans un PCData de mathématique

''

encadre une valeur d'attribut

&quot;

ou &#34;

Des guillements dans la forme d'autorité figurant dans l' attribut NORMAL d'un titre

&

caractère d'échappement

&amp ;

ou &#38 ;

Esperluette dans la forme d'autorité figurant dans l' attribut NORMAL d'une collectivité

'

Simple quote

&apos;

ou &#8217;

Apostrophe dans dans la forme d'autorité figurant dans l' attribut NORMAL d'une collectivité ou d'un titre notamment

  • Autres caractères dont la présence dans les URL peut entrainer des réécritures à la publication et les rendre inopérantes : les accolades { ou }, le signe plus +, le %

  • Les chaine de caractères interprétés comme des codes hexadécimaux (cf tableau ci-dessus) ne peuvent figurer dans des URL au sens littéral : ils seront convertis en caractère réservé (exemple la chaine %3C sera automatiquement interprété comme encodant le caractère « < »)

L'export en DublinCore simple ou DublinCore Qualifié

Les deux exports à sortie XML DublinCoreSimple (DC simple) et DublinCoreQualifie (DC qualifié) font abstraction des conditions et besoins propres au moissonnage via le protocole OAI-PMH.

La structure du fichier résultat a donc été adaptée aux conditions d'une transformation XML classique :

  • la racine de ce fichier est un élément <ListRecords> (de préférence à <GetRecord> qui n'en est qu'un cas particulier). Chaque composant, chaque niveau descriptif exporté fait l'objet d'un élément <record>, subdivisé avec une en-tête <header> et une partie <metadata>.

  • l'en-tête <header> est appauvrie, du fait du contexte (hors moissonnage), et des limites techniques de Calames Prod qui ne permet pas de générer l'élément <datestamp> : le cas échéant, la datation de l'export doit donc être reconstituée après coup.

L'export professionnel Dublin Core "simple", respecte les spécifications déjà en place dans le cadre du service OAI de Calames, mais prend également en compte, par héritage, dans <dc:identifier>, <dc:date>, <dc:language>, <dc:creator>, <dc:contributor>, <dc:subject>, <dc:type> et <dc:rights> les données présentes dans les ancêtres du niveau descriptif exporté, et suit autant que possible les bonnes pratiques Dublin Core de la BnF.

L'export professionnel Dublin Core "qualifié" (éléments dcterms) vise une conversion maximale des données EAD en éléments DCMI.

Les règles de conversion de chacun de ces deux exports correspondent aux 2e et 3e colonne du tableau des mappings EAD - Dublin Core.

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames

Vers Unimarc

Le tableau de conversion de l'EAD au MarcXML détaille la conversion appliquée.

Il est indispensable de renseigner le filtre d'export :

  • pour tous les composants : //c

  • pour les composants qui ont un <unitid> (exclut les parents sans unitid) : //c[../did/unitid]

Le fichier obtenu est nécessairement appauvri par rapport à l'encodage EAD natif (perte de la hiérarchisation et inadaptation du langage Marc pour traduire l'héritage des données ; certaines balises et attributs EAD n'ont pas d'équivalent en Unimarc comme <accruals>, <appraisal>, <arrangement>, etc.).

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames

A des fins de contrôle qualité

Le cas particulier de Visio_controle

L'export Visio_controle est très particulier. Il ne vise par à récupérer les données exportées à des fins d'exploitation dans un autre environnement ou à des fins de réimport dans Calames.

Il vise à produire un ensemble de statistique et un contrôle du respect d'un certain nombre de bonnes pratiques de l'EAD en bibliothèques et des règles spécifiques à Calames.

L'export Valeurs_controle-Filtre

L'export Valeurs_controle-Filtre permet de récupérer une seule et unique valeur soit celle d'un attribut, soit celle du contenu textuel d'un élément, quel que soit son emplacement dans le fichier EAD, ainsi que l'ID du composant dans laquelle elle se situe.

Il vise à faciliter le contrôle de la conformité des valeurs type et l'identification des composants où une valeurs est à reprendre.

Le fichier txt résultat est un fichier tabulé à 2 colonnes avec

  • identifiant (ID du composant ou la mention archdesc pour une valeur en haut niveau dans l'ordre du fichier EAD

  • le signe ¤ comme séparateur

  • La valeur ciblée par le filtre

Il précise en entête dans la rubrique « Résultat(s) avec le filtre : » l'élément EAD et son éventuel attribut ciblé par le xpath du filtre d'export

ExempleExemples de filtre type
Attention

Si le filtre vise un attribut sans préciser son élément, et que cet attribut existe dans plusieurs éléments différents, par exemple : @href, seul l'élément parent de la première occurrence de l'attribut dans le fichier EAD est mentionné dans « Résultat(s) avec le filtre : »

RemarqueUn usage contraint

Cet export est conçu pour vous permettre de contrôler la conformité des valeurs d'attribut, ou l'une formule type et de pouvoir tres facilement filtrer dans un tableur les composants avec une valeurs à corriger

  • Il est nécessaire faire plusieurs exports pour produire les listes des différents attributs d'un même élément, ou d'un attribut et du contenu textuel d'un même élément EAD.

  • Si la correction est massive et systématique, il peut donner lieu à une demande de modification de masse à l'Abes

  • Si vous avez besoin de contenu plus riches (contenu complet de <physdesc> par exemple), faire la demande sur le guichet ABESstp Calames pro, domaine « Exports et publications ».

A des fins de traitement xml

Les exports Natif-C et Natif-Filtre

  • Natif-C exporte uniquement le ou les fragments ciblés par une expression Xpath ;

  • Natif-Filtre permet de conserver les éléments de haut niveau et n'applique le filtre qu'au niveau des composants (à savoir, au sein de l'élément <dsc>).

Dans un cas comme dans l'autre, il est nécessaire d'employer une expression XPath valide.

Dès lors que l'expression porte sur plus d'un composant <c>, le résultat d'un export Natif-C ne respecte plus la syntaxe XML (en l'absence d'élément racine, on n'a plus de fichier "bien formé").

ExempleExemple 1

Un export avec l'expression //c[@level=''item''] aura pour fichier résultat,

  • soit un rassemblement des composants <c> de niveau "item" (Natif-C),

  • soit une copie partielle du fichier mais avec un <dsc> restreint aux seuls composants de niveau "item" (ainsi que les sous-composants descendants le cas échéant). (Natif-filtre)

ExempleExemple 2

Soit un fichier dont seul le premier composant de 1er niveau m'intéresse. L'expression Xpath //dsc/c[1] permettra :

  • soit d'obtenir le code de ce seul composant (et de sa descendance) (Natif-C)

  • soit d'obtenir un fichier EAD dont le <dsc> est restreint à ce composant (et à sa descendance) (Natif-filtre)

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames

Les trois autres modèles d'exports XML de fonctionnement courant, Natif, Natif-Déclaration et Kill-id sont présentés dans le manuel de l'outil de catalogage.

A des fins d'alimentation de Wikimedia Commons

Ces deux modèles d'export ont été conçus pour générer un tableau conforme aux métadonnées descriptives d'un document numérique attendues par Wikimedia Commons et exploitable par l'outil Pattypan : un chapitre dédié détaille la procédure complète.

Un tableau à deux onglets détaille, pour chaque modèle d'export, les règles de conversion depuis les données EAD

L'export Wikimedia_artwork_CSV filtre

L'export Wikimedia_artwork_CSV filtre permet d'exporter au format tabulé les données de chaque niveau descriptif ciblé par le filtre dans un tableau à la structuration conforme au template Artwork de Wikimedia Commons

Il concerne des unités documentaires :

L'export Wikimedia_book_CSV filtre

L'export Wikimedia_book_CSV filtre permet d'exporter au format tabulé les données de chaque niveau descriptif ciblé par le filtre dans un tableau à la structuration conforme au template Book de Wikimedia Commons

Il concerne des unités documentaires textuelles. Il est requis dans le cas des documents numérisés en plusieurs vues (liasses d’archives, manuscrits, correspondances,… )

ExempleExemples d'xpath

L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames