Seconde expérimentation Sudoc FRBR / LRM (octobre 2019 - ...)

Date de création du document : 2019-09-24
Date de dernière mise à jour du document : 2019-10-25

 

Introduction

Définitions


Principes de FRBRisation du Sudoc


Interface de visualisation et commandes de recherche



Introduction


  En 2018, après avoir fait un premier bilan, il a été décidé de poursuivre l’expérimentation Sudoc FRBR.
Des spécifications d’ajustement ont été fournies au prestataire (OCLC Pica) afin d’améliorer les performances qualitatives de l’algorithme.
Entre-temps, OCLC a développé un nouvel algorithme qui a eu pour conséquence la révision des spécifications et le passage par un nouveau cycle de recette avant l’implémentation dans la base de production du Sudoc. Ce nouveau programme, surnommé "algoclc2", est passé en production le 14 octobre 2019.
 
Historique : billets de blog à lire sur l'expérimentation.


Haut de pagehaut de page



Quelques définitions


Des modèles de données…
 
FRBR : Functional Requirements for Bibliographic Records / Fonctionnalités requises des notices bibliographiques

*«Modèle conceptuel de données bibliographiques, validé en 1997 par l’IFLA. Il définit les entités sur lesquelles porte l’information catalographique ainsi que les relations qui existent entre ces entités. Il analyse toute ressource décrite comme l’imbrication de quatre entités distinctes (Œuvre, Expression, Manifestation, Item) dont la notice catalographique reflète les attributs et les relations. Ce modèle, comme le modèle FRAD, est désormais obsolète».


  IFLA LRM : Library Reference Model, Modèle de Référence pour les Bibliothèques

*«Modèle conceptuel publié par l’IFLA en 2017, conçu pour être utilisé dans le web de données et promouvoir l’utilisation des données bibliographiques dans cet environnement. Ce modèle fusionne et remplace les 3 modèles : FRBR, FRAD et FRSAD. Il a vocation à résoudre les incohérences de ces trois modèles et facilite l’écriture d’un code de catalogage tel que RDA».


   

… et des façons de les mettre en œuvre
 
FRBRisation

*«Néologisme désignant les processus automatiques visant à rapprocher du modèle FRBR les données des notices bibliographiques d’un catalogue de bibliothèque n’ayant pas été produit suivant ce modèle».


 
Expérimentation « Sudoc FRBR » : essai de FRBRisation de données du catalogue Sudoc par programme
  • Cette expérience consiste à utiliser un algorithme pour, d’une part, calculer automatiquement des regroupements (grappes ou clusters) de notices bibliographiques censées représenter une même œuvre dans la base de production du Sudoc et, d’autre part, créer des pré-notices d’œuvres auxquelles sont rattachées des grappes de notices bibliographiques. Les pré-notices d’œuvre, nommées notices de regroupement, sont de type autorité dans la base de production.

  • L’intitulé conserve l’expression « FRBR » dans la mesure où :
      « (…) Le cadre général qu’il [le modèle FRBR] pose s’avérera pourtant suffisamment solide pour que les modèles suivants, LRM compris, le reprennent sans écarts conceptuels : un cœur bibliographique réparti en quatre entités, œuvre, expression, manifestation et item (les « WEMI » ou « groupe 1 »), (…) ».
    Le Pape, Philippe. Vingt ans après : LRM, le cinquième mousquetaire. Arabesques, octobre – novembre – décembre 2017, n°87, p.18-19.

* définitions issues du site Transition bibliographique



Haut de pagehaut de page

 

Principes de la FRBRisation expérimentale du Sudoc


Modélisation a minima
 
  • Dans l’état actuel de structuration des données du Sudoc, il n’est pas possible de reproduire le principe de relations entre entités du modèle LRM.

  • L’expérimentation opère une FRBRisation a minima qui consiste à identifier l’entité œuvre via l’entité manifestation présente dans les notices bibliographiques du Sudoc. Un premier pas qui doit permettre de préparer les données au nouveau modèle.
 

Opérations entièrement automatisées
 
  • L’algorithme tourne toutes les nuits pour créer, modifier ou supprimer des grappes de notices bibliographiques et les notices autorité de regroupement.

  • Une notice bibliographique ne peut faire partie que d'une seule grappe à la fois.

  • Aucune intervention manuelle n’est possible tant que le programme est activé.

  • L'algorithme sera arrêté lorsqu'une évaluation des résultats obtenus sera réalisée afin de déterminer ce qu’il est possible de FRBRiser via ce processus et ce qu’il faudra traiter par d’autres moyens.
 

Un leitmotiv : "Mieux vaut plusieurs clusters homogènes qu'un gros cluster attrape-tout"
 
  • Les éléments de la formule de calcul de l'algorithme ont été revus et modifiés pour respecter le principe suivant : obtenir des grappes de notices bibliographiques cohérentes et justes, quitte à créer moins de clusters ou plus de petits clusters. Il sera plus facile de rassembler a posteriori des grappes représentant une même oeuvre que de devoir trier des entités mêlées.

Haut de pagehaut de page


 

Création de notices autorité de regroupement et d’un point d’accès dans les notices bibliographiques
 

Ces données sont générées par programme. Il n'est donc pas possible de les créer, les modifier ou les supprimer manuellement tant que l'algorithme tournera chaque nuit.
En conséquence, si un cluster, une notice de regroupement ou une zone B579 semblent comporter des anomalies, il faut :

- vérifier les notices bibliographiques de la grappe pour y débusquer de possibles erreurs de catalogage ou pour pallier un manque d'informations permettant au programme de traiter les données correctement.

- attendre le lendemain pour voir le résultat de corrections effectuées la veille dans des notices bibliographiques car le programme tourne toutes les nuits.



Notice autorité de regroupement (ou pré-notice d’œuvre)
  • Le type, zone A008$aTr2, créé lors de la première expérimentation est conservé. Il s’agit de la notice de regroupement qui préfigure la future notice d’œuvre.

  • La structure de cette notice s’appuie largement sur le format UNIMARC Autorités et sur ses mises à jour qui permettent d’introduire les notions en relation avec le niveau œuvre.

  • Exemple : les accès auteurs sont désormais présentés dans des zones A5X1


  • Le contenu est en grande partie récupéré des notices bibliographiques regroupées dans une même grappe. Les paramétrages de l’algorithme permettent d’élire une notice de « référence » à partir de laquelle va être alimentée la plupart des zones de la notice de regroupement. Les autres notices de la grappe fournissent les données complémentaires. Certaines valeurs sont, quant à elles, générées par défaut.
    Détail de la structure de la notice de regroupement (Tr) : liste des zones et des sous-zones autorité créées et leur origine.
 
Point d’accès dans les notices bibliographiques

La zone B579, créée lors de la première expérimentation, est conservée et sa structure demeure inchangée. Seul l’affichage est légèrement modifié :
  • Une sous-zone $1 contient le code du programme de regroupement

  • Une sous-zone $3 contient le PPN cliquable de la notice de regroupement liée. L’expansion affiche le titre de « l’œuvre » d’après les données présentes dans le point d’accès autorisé de la notice de regroupement (zone A241 ou A231).

  • Exemple


 
La notice de regroupement (Tr) et la zone B579 ne sont pas exportées (elles ne font pas partie du format d'échange) et ne sont pas visibles dans le catalogue public.


Haut de pagehaut de page


 

Contraintes techniques et périmètre restreint des données traitées
 
Le programme tourne sur les notices bibliographiques de la base de production du Sudoc.


Certaines notices sont cependant exclues des calculs de regroupement de par leur type ou leur statut :

Les agrégats, qui recouvrent :
  • les notices bibliographiques contenant plusieurs titres propres du même auteur ou d’auteurs différents dans le format unimarc en zone B200 : présence de plusieurs sous-zones $a ou bien des sous-zones $a avec des sous-zones $c ou encore des notices bibliographiques contenant plusieurs zones B500 ou au moins une zone B464.

  • les ressources continues considérées comme des œuvres à la fois agrégatives et diachroniques.

L’algorithme ne peut pas lier une notice bibliographique à plusieurs grappes, il ne peut donc traiter correctement les agrégats.
 
Les notices bibliographiques sans exemplaire

Par choix, la nouvelle expérimentation se base uniquement sur les notices réellement utilisées par les établissements du réseau Sudoc.
 
Les notices uniques ou isolées

Le programme crée une notice de regroupement lorsqu’il existe au minimum deux notices bibliographiques avec localisation qu’il est possible de rassembler.

Les notices de recueils factices sont de fait non traitées car uniques (elles sont de plus filtrées en amont par leur statut).
 


Les notices de thèses bénéficient d’un traitement particulier de l’algorithme qui :
  • ajoute une zone 029 dans la notice autorité de regroupement. Cette zone est répétée si le système détecte des contenus différents dans les notices bibliographiques de la grappe

  • Exemple



  • privilégie la notice originelle (contenant une zone B105$bm) comme notice de référence pour construire la notice autorité de regroupement

  • regroupe ou non les notices de thèse selon les principes suivants :

    - Notice1 contient (une zone B105 $bm OU $b7) ET une zone B328 avec une sous-zone $z (reproduction, etc.), alors ne pas l’inclure dans une grappe

    - Notice2 ne contient pas (une zone B105 $bm OU $b7) ET contient une zone B328 sans une sous-zone $z, alors ne pas l’inclure dans une grappe

    - Notice3 contient (une zone B105 $bm OU $b7) ET une zone B328 sans une sous-zone $z, alors l’inclure dans une grappe (notice « de référence »).


Haut de pagehaut de page

 

Interface de visualisation et commandes de recherche

 
Seule l’interface professionnelle de catalogage WinIBW permet de visualiser les résultats de ces traitements.



Les commandes de recherche
  • CHE ONT [mots du titre] : l’index ONT permet de rechercher les notices de regroupement et les notices bibliographiques qui leurs sont liées par les mots du titre.

  • Exemple


  • REL TT : comme pour toute notice d’autorité, la commande REL TT effectuée à partir d’une notice Tr affichée, permet de lister toutes les notices bibliographiques liées à cette notice de regroupement.
    La nouvelle version de l’affichage dans WinIBW offre la possibilité d’obtenir le même résultat en cliquant directement sur un lien dans la notice de regroupement (affichage UNM ou UNMA uniquement). Il suffit de cliquer sur le nombre des titres reliés présent en début de notice.

  • Exemple


  • REL : cette commande effectuée à partir d’une notice autorité de personne ou de famille ou de collectivité, permet de lister les notices de regroupement (Tr) liées à cette notice autorité.


  • BAL DNT : Usage de l’index DNT (Doublon Numéro National de Thèse). Il sélectionne les notices de regroupement, et uniquement sur ce type de notice d’autorité, ainsi que les notices bibliographiques comportant plus d'une zone B029 au contenu différent. La commande BAL DNT permet ainsi de repérer des anomalies dues à des erreurs de saisie, la présence de doublons, etc.

 
Les données affichées
  • PPN de notices bibliographiques sources : ajoutés dans des sous-zones $9 cliquables des notices de regroupement. Il est ainsi très facile de vérifier les données visibles dans les notices de regroupement lorsqu'elles sont issues de notices bibliographiques du cluster.

  • Exemple


  • Accès autorisé titre : dans les notices de regroupement, seuls les titres propres et les compléments de titres sont affichés (zones A231/A241), même si la notice bibliographique source contient une mention de volume et/ou de sous-partie (zones B500/B454/B200).
    C'est le contenu de l'accès autorisé qui est affiché dans la zone B579 des notices bibliographiques rattachées à la notice de regroupement.

  • Exemple


  • Accès auteurs : seuls les auteurs présents dans les zones B7X0 ou B7X1 et qui ont un code de fonction de niveau œuvre sont affichés dans des zones A5X1 de la notice de regroupement.

  • Exemple




Haut de pagehaut de page