
|
Des modèles de données…
|
|
FRBR : Functional Requirements for Bibliographic Records / Fonctionnalités requises des notices bibliographiques
*«Modèle conceptuel de données bibliographiques, validé en 1997 par l'IFLA. Il définit les entités sur lesquelles porte l'information catalographique ainsi que les relations qui existent entre ces entités. Il analyse toute ressource décrite comme l'imbrication de quatre entités distinctes (Œuvre, Expression, Manifestation, Item) dont la notice catalographique reflète les attributs et les relations. Ce modèle, comme le modèle FRAD, est désormais obsolète».
|
|
IFLA LRM : Library Reference Model, Modèle de Référence pour les Bibliothèques
*«Modèle conceptuel publié par l'IFLA en 2017, conçu pour être utilisé dans le web de données et promouvoir l'utilisation des données bibliographiques dans cet environnement. Ce modèle fusionne et remplace les 3 modèles : FRBR, FRAD et FRSAD. Il a vocation à résoudre les incohérences de ces trois modèles et facilite l'écriture d'un code de catalogage tel que RDA».
|
|
|

|
… et des façons de les mettre en oeuvre
|
|
FRBRisation
*«Néologisme désignant les processus automatiques visant à rapprocher du modèle FRBR les données des notices bibliographiques d'un catalogue de bibliothèque n'ayant pas été produit suivant ce modèle».
|
|
Expérimentation « Sudoc FRBR » : essai de FRBRisation de données du catalogue Sudoc par programme
- Cette expérience consiste à utiliser un algorithme pour, d'une part, calculer automatiquement des regroupements (grappes ou clusters) de notices bibliographiques censées représenter une même oeuvre dans la base de production du Sudoc et, d'autre part, créer des pré-notices d'oeuvres auxquelles sont rattachées des grappes de notices bibliographiques. Les pré-notices d'oeuvre, nommées notices de regroupement, sont de type autorité dans la base de production.
- L'intitulé conserve l'expression « FRBR » dans la mesure où :
« (…) Le cadre général qu'il [le modèle FRBR] pose s'avérera pourtant suffisamment solide pour que les modèles suivants, LRM compris, le reprennent sans écarts conceptuels : un coeur bibliographique réparti en quatre entités, oeuvre, expression, manifestation et item (les « WEMI » ou « groupe 1 »), (…) ».
Le Pape, Philippe. Vingt ans après : LRM, le cinquième mousquetaire. Arabesques, octobre - novembre - décembre 2017, n°87, p.18-19.
|
|
 |
J.e-Cours du 28/11/19 : Expérimentation Sudoc FRBR/LRM - saison 2. |
|
Présentation des enjeux de cette seconde expérimentation, de l'amélioration apportée aux résultats et à la visualisation des données par le nouvel algorithme, et de la manière dont tout catalogueur peut participer pour renforcer la qualité des données "regroupées. |
|

|
Modélisation a minima
|
|
- Dans l'état actuel de structuration des données du Sudoc, il n'est pas possible de reproduire le principe de relations entre entités du modèle LRM.
- L'expérimentation opère une FRBRisation a minima qui consiste à identifier l'entité oeuvre via l'entité manifestation présente dans les notices bibliographiques du Sudoc. Un premier pas qui doit permettre de préparer les données au nouveau modèle.
|
|

|
Opérations entièrement automatisées
|
|
- L'algorithme tourne toutes les nuits pour créer, modifier ou supprimer des grappes de notices bibliographiques et les notices autorité de regroupement.
- Une notice bibliographique ne peut faire partie que d'une seule grappe à la fois.
- Aucune intervention manuelle n'est possible tant que le programme est activé.
- L'algorithme sera arrêté lorsqu'une évaluation des résultats obtenus sera réalisée afin de déterminer ce qu'il est possible de FRBRiser via ce processus et ce qu'il faudra traiter par d'autres moyens.
|
|

|
Un leitmotiv : "Mieux vaut plusieurs clusters homogènes qu'un gros cluster attrape-tout"
|
|
- Les éléments de la formule de calcul de l'algorithme ont été revus et modifiés pour respecter le principe suivant : obtenir des grappes de notices bibliographiques cohérentes et justes, quitte à créer moins de clusters ou plus de petits clusters. Il sera plus facile de rassembler a posteriori des grappes représentant une même oeuvre que de devoir trier des entités mêlées.
haut de page
|
|

|
Création de notices autorité de regroupement et d'un point d'accès dans les notices bibliographiques
|
|
Ces données sont générées par programme. Il n'est donc pas possible de les créer, les modifier ou les supprimer manuellement tant que l'algorithme tournera chaque nuit.
En conséquence, si un cluster, une notice de regroupement ou une zone B579 semblent comporter des anomalies, il faut :
- vérifier les notices bibliographiques de la grappe pour y débusquer de possibles erreurs de catalogage ou pour pallier un manque d'informations permettant au programme de traiter les données correctement.
- attendre le lendemain pour voir le résultat de corrections effectuées la veille dans des notices bibliographiques car le programme tourne toutes les nuits.
Notice autorité de regroupement (ou pré-notice d'oeuvre)
- Le type, zone A008$aTr2, créé lors de la première expérimentation est conservé. Il s'agit de la notice de regroupement qui préfigure la future notice d'oeuvre.
- La structure de cette notice s'appuie largement sur le format UNIMARC Autorités et sur ses mises à jour qui permettent d'introduire les notions en relation avec le niveau oeuvre.
Exemple : les accès auteurs sont désormais présentés dans des zones A5X1
- Le contenu est en grande partie récupéré des notices bibliographiques regroupées dans une même grappe. Les paramétrages de l'algorithme permettent d'élire une notice de « référence » à partir de laquelle va être alimentée la plupart des zones de la notice de regroupement. Les autres notices de la grappe fournissent les données complémentaires. Certaines valeurs sont, quant à elles, générées par défaut.
Détail de la structure de la notice de regroupement (Tr) : liste des zones et des sous-zones autorité créées et leur origine.
|
|
Point d'accès dans les notices bibliographiques
La zone B579, créée lors de la première expérimentation, est conservée et sa structure demeure inchangée. Seul l'affichage est légèrement modifié :
- Une sous-zone $1 contient le code du programme de regroupement
- Une sous-zone $3 contient le PPN cliquable de la notice de regroupement liée. L'expansion affiche le titre de « l'oeuvre » d'après les données présentes dans le point d'accès autorisé de la notice de regroupement (zone A241 ou A231).
Exemple
|
|
La notice de regroupement (Tr) et la zone B579 ne sont pas exportées (elles ne font pas partie du format d'échange) et ne sont pas visibles dans le catalogue public.
haut de page
|
|

|
Contraintes techniques et périmètre restreint des données traitées
|
|
Le programme tourne sur les notices bibliographiques de la base de production du Sudoc.
Certaines notices sont cependant exclues des calculs de regroupement de par leur type ou leur statut :
Les agrégats, qui recouvrent :
- les notices bibliographiques contenant plusieurs titres propres du même auteur ou d'auteurs différents dans le format unimarc en zone B200 : présence de plusieurs sous-zones $a ou bien des sous-zones $a avec des sous-zones $c ou encore des notices bibliographiques contenant plusieurs zones B454, B500 ou au moins une zone B464.
- les ressources continues considérées comme des oeuvres à la fois agrégatives et diachroniques.
L'algorithme ne peut pas lier une notice bibliographique à plusieurs grappes, il ne peut donc traiter correctement les agrégats.
|
|
Les notices bibliographiques sans exemplaire
Par choix, la nouvelle expérimentation se base uniquement sur les notices réellement utilisées par les établissements du réseau Sudoc.
|
|
Les notices uniques ou isolées
Le programme crée une notice de regroupement lorsqu'il existe au minimum deux notices bibliographiques avec localisation qu'il est possible de rassembler.
Les notices de recueils factices sont de fait non traitées car uniques (elles sont de plus filtrées en amont par leur statut).
|
|
Les notices de thèses bénéficient d'un traitement particulier de l'algorithme qui :
- ajoute une zone 029 dans la notice autorité de regroupement. Cette zone est répétée si le système détecte des contenus différents dans les notices bibliographiques de la grappe
Exemple
- privilégie la notice originelle (contenant une zone B105$bm) comme notice de référence pour construire la notice autorité de regroupement
- regroupe ou non les notices de thèse selon les principes suivants :
- Notice1 contient (une zone B105 $bm OU $b7) ET une zone B328 avec une sous-zone $z (reproduction, etc.), alors ne pas l'inclure dans une grappe
- Notice2 ne contient pas (une zone B105 $bm OU $b7) ET contient une zone B328 sans une sous-zone $z, alors ne pas l'inclure dans une grappe
- Notice3 contient (une zone B105 $bm OU $b7) ET une zone B328 sans une sous-zone $z, alors l'inclure dans une grappe (notice « de référence »).
|