Comprendre et exploiter les exports⚓
La procédure d'export et les principaux modèles xml et Visio_controle sont présentés dans le manuel de l'outil de catalogage
Le principe des exports⚓
Les différents modèles d'export⚓
Objectif principal | Exporte le Document EAD complet : filtre non pris en compte | Exporte des composants précis : filtre requis | Exporte des éléments de composants précis : filtre requis | Extension recommandée |
Modèle Natif Modèle Natif-Déclaration Modèle Kill-id | Modèle Natif-C Modèle Natif-Filtre | .xml | ||
Modèle IRComplet_htmlpourpdf | .html | |||
Modèle Liste | .html | |||
Modèle DublinCore-CSV (*) | Modèle DublinCore-CSV filtre (*) | .csv | ||
Modèle DublinCoreSimple(*) Modèle DublinCoreQualifie(*) | .xml | |||
Modèle MarcXML(*) | .xml | |||
Modèle MarcISO2709 | .mrc | |||
Modèle MarcISO2709UTF8 | .mrk8 | |||
Contrôle qualité | .html | |||
.txt | ||||
Modèle Wikimedia_book_CSV filtre (*) Modèle Wikimedia_artwork_CSV filtre (*) | .csv ou .txt |
(*) : L'xslt de ce modèle est publié sous licence CeCILL sur le github de l'Abes
Exporter c'est appliquer un ensemble de transformations définies dans un xslt⚓
Exporter depuis Calames consiste à appliquer un xslt, fichier de transformation du fichier xml EAD de départ.
Pour accéder à l'xslt appliqué par le modèle d'export⚓
Cliquer sur le bouton Edit
du pop up consacré à l'export : un nouveau champ apparaît alors dans la partie inférieure qui permet de copier l'xslt.
Il est alors possible de l'exporter et de l'adapter à un besoin ponctuel pour l'utiliser dans un éditeur XML extérieur à Calames sur le résultat xml d'un export Natif-Déclaration.
Le principe du filtre d'export⚓
Les modèles d'export qui s'appliquent uniquement à des composants (voire des éléments EAD précis) requièrent la saisie d'un XPath dans le champ Filtre
de la fenêtre d'export. L'XPath permet d'expliciter le chemin XML dans un ou plusieurs document EAD afin d'en sélectionner des composants ou des éléments EAD.
La saisie d'un filtre est requise en cas d'export Natif-C, Natif-Filtre, MarcXML, MarcISO2709, MarcIso2709UTF8, DublinCoreSimple, DublinCoreQualifie, EvalXpath.
Le champ
Filtre
s'affiche systématiquement, même si l'export sélectionné ne le prend pas en compte (voir le tableau des différents modèles d'exports ci-dessus). Dans le cas des modèles où le filtre est inopérant, l'export fonctionne normalement, même si l'XPath d'exemple affiché par défaut dans le champ "Filtre" ne correspond à rien.
Attention :
L'xpath présent par défaut à titre d'exemple : //c[@id=''cgm-1234578''] ne correspond à aucun cas précis : l'ID "cgm-1234578" n'est pas un ID présent dans Calames
Cet xpath exemple doit impérativement être modifié pour que fonctionnent les exports requérant un "Filtre".
Si, dans le champ Filtre
, aucun xpath n'est saisi, que l'xpath par défaut n'est pas adapté, ou que l'xpath corrigé ne correspond à rien dans le ou dans l'un ou l'autre des documents EAD en cours d'export, le fichier résultat de l'export propre au fichier concerné ne contient aucun composant et affiche une alerte :
(Rappel : il y a toujours un fichier résultat d'export par fichier EAD dans Calames, et donc autant de fichier résultat que de clés saisies dans le champ Clés
du formulaire d'export
Etes-vous sûr de la bonne construction de l'xpath saisi dans le champ "Filtre" de la fenêtre d'export ? (...). Voir la documentation pour plus de précision : /aidecalames/manuelcorrespondant/index.html#PrincipesExports.. __ Message systématique quand l'xpath saisi dans le champ filtre requis ne correspond à rien dans le document EAD en cours d'export. |
La syntaxe à utiliser dans le champ Filtre
est celle des expressions XPath.
Pour en savoir plus sur cette syntaxe consulter ce tutoriel : "XPath, XSLT : des langages XML appliqués à l'EAD".
Attention :
Il y a une exception à l'application de cette syntaxe : le filtre dans Calames ne reconnaît pas les caractères guillemets ou double quotes ("). Il est donc nécessaire de leur substituer deux caractères apostrophes ou simples quotes (') au sein des expressions Xpath devant en comporter.
Exemple : Exemple pré-saisi dans le champs Filtre⚓
composant <c> à l'identifiant fictif dans la syntaxe attendue par Calames
//c[@id=''cgm-1234578''] |
Il est composée de la manière attendue : la valeur de l'attribut identifiant est bien encadrée par 2 x 2 simples quotes.
Exemple : Exemples d'xpath⚓
L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames
Appliquer un XPath à plusieurs fichiers EAD lors d'un même export⚓
Il est possible d'appliquer un XPath à plusieurs fichiers EAD simultanément lors d'un export. Saisir l'XPath dans le champ Filtre de la fenêtre d'export, puis saisir les clés de chaque fichier séparées par une virgule sans espace dans le champ "Clés".
Attention :
Comme le précise la procédure d'export simultané de plusieurs fichiers EAD, même pour un export avec filtre, il y a autant de fichier résultats que de fichiers EAD concernés par l'export : selon les besoins, ils doivent ensuite être éventuellement fusionnés
Développer de nouveaux modèles d'export⚓
L'Abes peut incrémenter de nouveaux modèles d'export à des fins d'usage régulier qu'il s'agisse de traitement générique pouvant être proposé à tous les établissements ou de traitements spécifiques pour alimenter un outil propre à l'établissement.
Les différents modèles d'export⚓
Ce chapitre présente uniquement les modèles autres que les 3 modèles xml Natif, Natif-Déclaration et Kill-id présentés dans le manuel de l'outil de catalogage
A des fins d'affichage⚓
L'export IRComplet_htmlpourpdf⚓
Extension recommandée : .html | Périmètre : document EAD complet |
L'export IRComplet_htmlpourpdf permet d'exporter l'ensemble des données du <archdesc> et de tous les composants <c> dans un document html dont la mise en forme et la structure reproduit au mieux l'affichage dans l'interface publique.
Liens cliquables dans le fichier html exporté⚓
Les url de chaque composant <c> sont reconstitués dans le champ « Adresse url ».
Les URI des entités IdRef correspondant aux éléments d'indexation liés à IdRef, sont cliquables à côté de la forme normalisée de chaque élément d'indexation.
Les autres liens (HREFdes <archref>, <bibref>, <extref>,dao> et <daoloc>) sont visibles et cliquables avec l'intitulé défini dans les données EAD ou l'intitulé par défaut.
Truc & astuce :
Il est possible de reconstituer en html un unique instrument de recherche constitué de différents fichiers EAD liés entre eux dans Calames, en fusionnant dans un éditeur html le code des fichiers html exporté en IRComplet_htmlpourpdf, en veillant à ne copier que les parties pertinentes.
Il est possible de convertir en pdf le fichier html obtenu par l'export IRComplet_htmlpourpdf.
Conseil : Faire un lien au fichier html ou pdf obtenu dans le <archdesc>⚓
Si le fichier html ou pdf obtenu à partir de l'export IRComplet_htmlpourpdf est mis en ligne par l'établissement, un lien vers ce fichier peut être renseigné dans un <archdesc><processinfo> du document EAD publié dans Calames.
L'export Liste⚓
Extension recommandée : .html | Périmètre : document EAD complet |
L'export Liste extrait, dans une page html, sous forme de liste à puces arborescente :
les informations des niveaux descriptifs d'un document EAD : <unitid>, <unittitle>, <scopecontent>, l'ensemble des sous-éléments de <physdesc> (n'exporte donc pas les mentions qui figurent directement en "PCDATA" de <physdesc>) ;
les points d'accès ;
les chemins XPath complets de chaque <c>.
A des fins de conversion de données⚓
Vers le Dublin Core⚓
Le tableau de conversion d'EAD vers Dublin Core décrit les principes de conversion EAD => Dublin Core mis en oeuvre par Calames
Le chapitre "Ouvrir un export csv dans un tableur" détaille les spécificités de la tabulation du fichier exporté.
L'export tabulé DublinCore-CSV⚓
Extension recommandée : .txt | Périmètre : document EAD complet |
L'export DublinCore-CSV permet d'exporter chaque niveau descriptif (y compris le haut niveau <archdesc>) d'un fichier EAD sous forme d'une ligne de tableur, dont chaque colonne correspond à des catégories d'informations en Dublin Core (rappelées dans les en-têtes du fichier résultat).
Le modèle d'export correspond aux mêmes spécifications que l'Export professionnel XML "DC simple" décrites dans le tableau de conversion d'EAD vers Dublin Core (colonne centrale), à quelques différences près :
il est recommandé de renseigner manuellement, dans le fichier Calames la valeur de l'attribut ID de <archdesc> (de manière à ce que la ligne exportée correspondante soit bien pourvue d'un "dc:identifier")
par exemple, renseigner <archdesc id="FileId-304"> pour l'instrument de recherche portant le numéro 304 dans la base Calames
la répétabilité des informations (en plusieurs colonnes autant que de besoin) est réservée aux champs dc:creator, dc:contributor, dc:subject, dc:language, et dc:format <(physfacet>)
les points d'accès figurant dans les niveaux descriptifs ancêtres ne sont pas intégrés dans dc:creator, dc:contributor et dc:subject
la mention "[date de l'ensemble]" n'apparaît pas lorsqu'une datation ancestrale est exploitée dans la colonne (unique et non rendue répétable) dc:date
en cas de <genreform type="type de document"> multiple au sein d'un même <c>, l'export des données normalisées correspondantes se fait dans une seule même cellule. Il n'y a d'héritage possible que venant d'un seul et unique <genreform type="type de document"> (conformément aux préconisations du Manuel de catalogage Calames)
deux colonnes sont prévues pour dc:description, la 1ère pour le contenu de <scopecontent>, la 2éme correspondant à la liste des cotes et intitulés des <c> enfants lorsqu'il y en a
afin de ne pas corrompre les données CSV, les guillemets droits doubles (") qui seraient présentes dans des chaînes de caractères exportées sont remplacés dans le fichier résultat par deux simples quotes (' ').
Exploitation du fichier exporté⚓
Le fichier résultat peut être enregistré sans extension : ouvrir le fichier dans un tableur comme Excel > aller dans Nouveau classeur > Données (externes) > Fichier texte > sélectionner votre fichier résultat > Type de données d'origine "délimité".
Choisir impérativement
"65001 Unicode UTF8" comme codage d' "Origine du fichier"
séparateur "tabulation"
identificateur de texte en mode guillemets droits double (")
Format des données en colonne "standard"
Terminer en sélectionnant l'abscisse et l'ordonnée de départ du tableau.
L'export DublinCore-CSV-Filtre⚓
Extension recommandée : txt | Périmètre : filtre requis |
L'export DublinCore-CSV-Filtre permet d'obtenir un ou plusieurs niveaux descriptifs (à l'exception du haut niveau <archdesc>) sous forme d'une ligne de tableur, dont chaque colonne correspond à des catégories d'informations en Dublin Core (rappelées dans les en-têtes du fichier résultat).
Le modèle d'export est globalement identique à "DublinCore-CSV" (sans filtre).
Pour cet export en particulier, il est nécessaire de respecter certaines règles dans la composition des expressions XPath
Les hauts niveaux descriptifs des fichiers EAD (informations figurant dans <archdesc> à l'exclusion de <dsc>) ne peuvent pas être atteints : le seul moyen de les obtenir est de faire emploi de l'export sans filtre DublinCore-CSV et de récupérer la première ligne de résultat, en ayant pris soin par ailleurs de renseigner l'attribut ID de <archdesc> avec l'identifiant interne à Calames.
Exemple : Exemples de filtre sur des critères de position⚓
Seuls les niveaux strictement désignés par l'expression seront exportés : les composants descendants, sauf mention explicite dans l'xpath, sont ignorés
Pour exporter uniquement les composants de 1er niveau :
Exemple :
//dsc/c
Pour exporter plusieurs composants non contigus d'un même fichier, il faut utiliser le pipe |, qui sert a exprimer l'opérateur booléen OU
Exemple :
//c[@id=''id1''] | //c[@id=''id2''] | //c[@id=''id3'']
Exemple : Exemples de filtre sur des critères de contenu⚓
Exemple pour exporter tous les composants décrivant des documents numérisés :
//dsc/descendant-or-self::c[dao | daogrp]
Exemple pour exporter tous les composants qui ont un <unitid> d'un autre type que "cote" :
//dsc/descendant-or-self::c[did/unitid[not(@type=''cote'')]]
Exemple : Exemples d'xpath⚓
L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames
Complément : Caractères réservés dans XML⚓
Pour ses propres besoins, xml a des caractères réservés indispensables à son expression. Lorsqu'il y a besoin d'utiliser ces mêmes caractères sans qu'xml les interprète dans son langage, il faut les remplacer dans une valeur d'attribut NORMAL ou dans une url en HREF comme le tableau ci-dessous l'indique :
Caractères réservés | interprétation xml | combinaison à saisir en remplacement | exemple d'usage |
< | balise ouvrante | < ou < | Inférieur dans un xpath ou dans un PCData de mathématique |
> | balise fermante | > ou > | Supérieur dans un xpath ou dans un PCData de mathématique |
'' | encadre une valeur d'attribut | " ou " | Des guillements dans la forme d'autorité figurant dans l' attribut NORMAL d'un titre |
& | caractère d'échappement | & ; ou & ; | Esperluette dans la forme d'autorité figurant dans l' attribut NORMAL d'une collectivité |
' | Simple quote | ' ou ’ | Apostrophe dans dans la forme d'autorité figurant dans l' attribut NORMAL d'une collectivité ou d'un titre notamment |
Autres caractères dont la présence dans les URL peut entrainer des réécritures à la publication et les rendre inopérantes : les accolades
{
ou}
, le signe plus+
, le%
Les chaine de caractères interprétés comme des codes hexadécimaux (cf tableau ci-dessus) ne peuvent figurer dans des URL au sens littéral : ils seront convertis en caractère réservé (exemple la chaine %3C sera automatiquement interprété comme encodant le caractère « < »)
L'export en DublinCore simple ou DublinCore Qualifié⚓
Extension recommandée : .xml | Périmètre : filtre requis |
Les deux exports à sortie XML DublinCoreSimple (DC simple) et DublinCoreQualifie (DC qualifié) font abstraction des conditions et besoins propres au moissonnage via le protocole OAI-PMH.
La structure du fichier résultat a donc été adaptée aux conditions d'une transformation XML classique :
la racine de ce fichier est un élément <ListRecords> (de préférence à <GetRecord> qui n'en est qu'un cas particulier). Chaque composant, chaque niveau descriptif exporté fait l'objet d'un élément <record>, subdivisé avec une en-tête <header> et une partie <metadata>.
l'en-tête <header> est appauvrie, du fait du contexte (hors moissonnage), et des limites techniques de Calames Prod qui ne permet pas de générer l'élément <datestamp> : le cas échéant, la datation de l'export doit donc être reconstituée après coup.
L'export professionnel Dublin Core "simple", respecte les spécifications déjà en place dans le cadre du service OAI de Calames, mais prend également en compte, par héritage, dans <dc:identifier>, <dc:date>, <dc:language>, <dc:creator>, <dc:contributor>, <dc:subject>, <dc:type> et <dc:rights> les données présentes dans les ancêtres du niveau descriptif exporté, et suit autant que possible les bonnes pratiques Dublin Core de la BnF.
L'export professionnel Dublin Core "qualifié" (éléments dcterms) vise une conversion maximale des données EAD en éléments DCMI.
Les règles de conversion de chacun de ces deux exports correspondent aux 2e et 3e colonne du tableau des mappings EAD - Dublin Core.
Exemple : Exemples d'xpath⚓
L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames
Vers Unimarc⚓
MarcXML | Extension recommandée : .xml | Périmètre : filtre requis |
MarcIso2709 et MarcIs2709UTF8 conformes à la norme ISO 2709 | Extension recommandée : .mrc (avant conversion en mrk ou mrk8) | Périmètre : filtre requis |
Le tableau de conversion de l'EAD au MarcXML détaille la conversion appliquée.
Il est indispensable de renseigner le filtre d'export :
pour tous les composants :
//c
pour les composants qui ont un <unitid> (exclut les parents sans unitid) :
//c[../did/unitid]
Le fichier obtenu est nécessairement appauvri par rapport à l'encodage EAD natif (perte de la hiérarchisation et inadaptation du langage Marc pour traduire l'héritage des données ; certaines balises et attributs EAD n'ont pas d'équivalent en Unimarc comme <accruals>, <appraisal>, <arrangement>, etc.).
Exemple : Exemples d'xpath⚓
L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames
A des fins de contrôle qualité⚓
Le cas particulier de Visio_controle⚓
Extension recommandée : .html | Périmètre : document EAD complet |
L'export Visio_controle est très particulier. Il ne vise par à récupérer les données exportées à des fins d'exploitation dans un autre environnement ou à des fins de réimport dans Calames.
Il vise à produire un ensemble de statistique et un contrôle du respect d'un certain nombre de bonnes pratiques de l'EAD en bibliothèques et des règles spécifiques à Calames.
L'export Valeurs_controle-Filtre⚓
Extension recommandée : .txt | Périmètre : filtre requis |
L'export Valeurs_controle-Filtre permet de récupérer une seule et unique valeur soit celle d'un attribut, soit celle du contenu textuel d'un élément, quel que soit son emplacement dans le fichier EAD, ainsi que l'ID du composant dans laquelle elle se situe.
Il vise à faciliter le contrôle de la conformité des valeurs type et l'identification des composants où une valeurs est à reprendre.
Le fichier txt résultat est un fichier tabulé à 2 colonnes avec
identifiant (ID du composant ou la mention archdesc pour une valeur en haut niveau dans l'ordre du fichier EAD
le signe ¤ comme séparateur
La valeur ciblée par le filtre
Il précise en entête dans la rubrique « Résultat(s) avec le filtre : » l'élément EAD et son éventuel attribut ciblé par le xpath du filtre d'export
Exemple : Exemples de filtre type⚓
Attention :
Si le filtre vise un attribut sans préciser son élément, et que cet attribut existe dans plusieurs éléments différents, par exemple : @href, seul l'élément parent de la première occurrence de l'attribut dans le fichier EAD est mentionné dans « Résultat(s) avec le filtre : »
Remarque : Un usage contraint⚓
Cet export est conçu pour vous permettre de contrôler la conformité des valeurs d'attribut, ou l'une formule type et de pouvoir tres facilement filtrer dans un tableur les composants avec une valeurs à corriger
Il est nécessaire faire plusieurs exports pour produire les listes des différents attributs d'un même élément, ou d'un attribut et du contenu textuel d'un même élément EAD.
Si la correction est massive et systématique, il peut donner lieu à une demande de modification de masse à l'Abes
Si vous avez besoin de contenu plus riches (contenu complet de <physdesc> par exemple), faire la demande sur le guichet ABESstp Calames pro, domaine « Exports et publications ».
A des fins de traitement xml⚓
Les exports Natif-C et Natif-Filtre⚓
Extension recommandée : .xml (ou txt) | Périmètre : filtre requis |
Natif-C exporte uniquement le ou les fragments ciblés par une expression Xpath ;
Natif-Filtre permet de conserver les éléments de haut niveau et n'applique le filtre qu'au niveau des composants (à savoir, au sein de l'élément <dsc>).
Dans un cas comme dans l'autre, il est nécessaire d'employer une expression XPath valide.
Dès lors que l'expression porte sur plus d'un composant <c>, le résultat d'un export Natif-C ne respecte plus la syntaxe XML (en l'absence d'élément racine, on n'a plus de fichier "bien formé").
Exemple : Exemple 1⚓
Un export avec l'expression //c[@level=''item'']
aura pour fichier résultat,
soit un rassemblement des composants <c> de niveau "item" (Natif-C),
soit une copie partielle du fichier mais avec un <dsc> restreint aux seuls composants de niveau "item" (ainsi que les sous-composants descendants le cas échéant). (Natif-filtre)
Exemple : Exemple 2⚓
Soit un fichier dont seul le premier composant de 1er niveau m'intéresse. L'expression Xpath //dsc/c[1]
permettra :
soit d'obtenir le code de ce seul composant (et de sa descendance) (Natif-C)
soit d'obtenir un fichier EAD dont le <dsc> est restreint à ce composant (et à sa descendance) (Natif-filtre)
Exemple : Exemples d'xpath⚓
L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames
Les trois autres modèles d'exports XML de fonctionnement courant, Natif, Natif-Déclaration et Kill-id sont présentés dans le manuel de l'outil de catalogage.
A des fins d'alimentation de Wikimedia Commons⚓
Ces deux modèles d'export ont été conçus pour générer un tableau conforme aux métadonnées descriptives d'un document numérique attendues par Wikimedia Commons et exploitable par l'outil Pattypan : un chapitre dédié détaille la procédure complète.
Un tableau à deux onglets détaille, pour chaque modèle d'export, les règles de conversion depuis les données EAD
L'export Wikimedia_artwork_CSV filtre⚓
Extension recommandée : .csv ou .txt | Périmètre : filtre requis |
L'export Wikimedia_artwork_CSV filtre permet d'exporter au format tabulé les données de chaque niveau descriptif ciblé par le filtre dans un tableau à la structuration conforme au template Artwork de Wikimedia Commons
Il concerne des unités documentaires :
image fixe : | Format des documents numériques.jpg, .png, .TIFF |
document sonore : | Format des documents numériques .wav |
L'export Wikimedia_book_CSV filtre⚓
Extension recommandée : .csv ou .txt | Périmètre : filtre requis |
L'export Wikimedia_book_CSV filtre permet d'exporter au format tabulé les données de chaque niveau descriptif ciblé par le filtre dans un tableau à la structuration conforme au template Book de Wikimedia Commons
Il concerne des unités documentaires textuelles. Il est requis dans le cas des documents numérisés en plusieurs vues (liasses d’archives, manuscrits, correspondances,… )
document textuel en une seule vue : | Format des documents numériques.pdf ou format image |
Document numérisé en plusieurs vues : | Format des documents numériques.pdf |
Exemple : Exemples d'xpath⚓
L'Abes met à votre disposition un fichier complet d'exemples différents types d'xpath appliqués aux données Calames