Date de création du document : 2000-10-23
Date de dernière mise à jour du document : 2017-04-18

Règles de dédoublonnage


Qu'est-ce qu'un doublon ?

Le login "dédoublonneur" : traiter les doublons

Login "dédoublonneur" - qui peut traiter quoi?

Règles de base du dédoublonnage

Quelques cas particuliers

Comment fonctionne une fusion ?

Comment défusionner des notices ?

Les notices en "statut B"

Annexe - Tables de fusion utilisées

 

Remarque : Ce document ne concerne que le dédoublonnage des notices bibliographiques. Pour le dédoublonnage des notices d'autorité, se référer au chapitre 6 du manuel "Le dédoublonnage".

Qu'est-ce qu'un doublon ? ou Brève histoire des doublons et du dédoublonnage dans le Sudoc des origines à nos jours

Le Sudoc, à son ouverture, résultait de la fusion de cinq bases ou parties de bases bibliographiques : CCN-PS, Téléthèses, SIBIL, OCLC, BN-Opale. Par la suite, d'autres chargements de notices sont venus l'enrichir : notices bibliographiques de la bibliographie de la France, notices des catalogues informatisés des bibliothèques universitaires dites " hors- source ", notices de conversions rétrospectives, etc.

Comme certaines notices de ces différentes bases décrivent le même document, des programmes ont été établis pour comparer celles qui entrent dans la base du Sudoc à celles qui sont déjà et les fusionner lorsqu’elles présentent un certain taux de similarité. Cependant, la détection automatique de tous les doublons existants n’a pas été possible (notices de rétroconversion trop incomplètes, cataloguées selon des règles différentes qui leur donnent une allure éloignée alors que le document décrit est le même, etc.) : c’est la première cause de la présence de doublons dans la base.

D’autres doublons n’en sont pas dans l’absolu mais relativement aux règles de description en usage dans le Sudoc. Par exemple, la fusion de notices décrivant des retirages à l’identique d’un même imprimé ne peut pas être automatisée, car les dates sont différentes : il faut un examen des livres et l’expertise des catalogueurs pour déterminer qu’on peut rassembler ces tirages au sein d’une même notice, qu’il faut alors compléter manuellement (note 305).

Enfin, et malheureusement, d’autres doublons sont créés en ligne par des catalogueurs qui n’ont pas bien identifié que le document qu’ils cataloguent est déjà décrit… et créent alors pour lui une notice qui existait déjà. (Rappel : le système central envoie tous les matins des messages d’alerte aux bibliothèques concernées.)

Le dédoublonnage de la base bibliographique du Sudoc constitue l'un des enjeux majeurs de la cohérence du catalogue.
Dans l'intérêt de tous, les catalogueurs du réseau sont donc invités à signaler ou traiter les doublons qu’ils rencontrent.

haut de page

 

Le login "dédoublonneur" : traiter les doublons

Qui ?

Ce type de login est attribué à une personne désignée dans un établissement pour être responsable de la fusion des doublons qui sont identifiés par les catalogueurs.
Exceptionnellement, plusieurs login "dédoublonneur" peuvent être créés pour des ILN très importants.

Les login "dédoublonneur" sont à demander à l'ABES par le coordinateur, via le guichet d'assistance.

Pour quoi faire ?

Lorsqu’un catalogueur repère un doublon de notices de monographies (et sous certaines conditions, de notices de ressources continues : voir les paragraphes Login dédoublonneur - qui peut traiter quoi? et Cas particuliers), il doit transmettre les ppn à son "dédoublonneur local", qui procèdera après vérification à la fusion des notices doublon.

Comment ?

Ce login spécifique habilite son utilisateur à ajouter une zone 024 dans une notice bibliographique. Celle-ci se présente ainsi :
024 $a[nom de la table de fusion]$bM$3[ppn de la notice préférée]  

La présence ainsi que le contenu de la zone ajoutée ont pour conséquence la mise en oeuvre d'un programme qui fusionne la notice dans laquelle est ajoutée la zone 024 avec celle (dite "notice préférée") dont le ppn figure en $3 de cette zone [Pour plus de détail, voir le paragraphe Comment fonctionne une fusion?].

L'utilisation du login "dédoublonneur" pour le traitement des doublons étant privilégiée dans le Sudoc, c'est elle qui est essentiellement décrite dans ce document. Néanmoins les règles de base du dédoublonnage décrites dans la suite s'appliquent de manière identique dans le cas, devenu résiduel, des notices en statut B.

haut de page

 

Login "dédoublonneur" - qui peut traiter quoi?

Pour des raisons pratiques et techniques, l'ABES est amenée à considérer deux "catégories" de dédoublonneurs :

haut de page

 

Règles de base du dédoublonnage

Un certain nombre de précautions simples doivent être respectées.

Pour apprendre à réagir avec plus de précision dans les cas difficiles, il est impératif de faire (avec succès) les 20 exercices du support de formation : Travaux pratiques interactifs de dédoublonnage. Ces exercices ont été créés lorsque existaient encore de nombreuses notices « candidats doublons », aussi ne reflètent-ils pas la forme des conditions actuelles de dédoublonnage. Mais les cas qu’ils présentent existent encore, et leur but est justement d’apprendre à évaluer ces problèmes.

La tâche des tables de fusion IXXX, utilisées pour le traitement des doublons de notices de monographies, est de transférer les données locales et d'exemplaires, ainsi que les numéros sources, de la notice supprimée (celle dans laquelle est ajoutée la zone 024) vers la notice préférée (voir le document fiche : Définition des tables de fusion - Tables IXXX).
Il revient au dédoublonneur opérant la fusion d'enrichir en parallèle de celle-ci la notice préférée de toutes les informations qu'il jugera nécessaire et en particulier de celles présentes dans la notice amenée à être supprimée lors de la fusion et qui seront sinon perdues pour le catalogue.

Les tables de fusion CRXX, utilisées par les CR pour le traitement des doublons de notices de ressources continues, procèdent en plus du transfert des mêmes informations que les tables IXXX, au transfert d'autres informations propres aux ressources continues (voir le document fiche : Définition des tables de fusion - Tables CRXX). Ce type de dédoublonnage requiert donc une attention toute particulière.

Quelques cas particuliers

Notices de types de documents différents

La prudence s’impose : en principe, on ne fusionne pas deux notices décrivant des documents de types différents.
Il faut notamment faire attention aux notices de microformes qui sont parfois très succinctes ou très peu distinctes de celles des imprimés qu’elles reproduisent : il faut bien vérifier la collation par exemple.

Cependant, si deux notices bibliographiques de types différents décrivent bien la même entité bibliographique, il est possible de les fusionner.

Le cas le plus fréquent est celui des notices multimédia multisupport (008 $aZa), décrivant un livre et un cédérom, pour lesquelles existe aussi une notice Aa où le cédérom est indiqué en 215 $e.
Si les documents décrits sont bien les mêmes, on doit fusionner les notices ; en ayant pris soin auparavant de se concerter avec les bibliothèques localisées sous les deux notices, afin qu’elles ne soient pas surprises par le changement, et de parvenir à un accord sur le type de document à conserver.

Note : ce cas est d’autant plus courant que, pour des raisons internes, la Bibliothèque nationale de France crée systématiquement une notice de type "multimédia multisupport" lorsqu’un document contient un cédérom, alors que dans le Sudoc certains de ces documents sont à considérer comme des imprimés accompagnés d’un cédérom. Certaines bibliothèques créent parfois de ce fait dans le Sudoc une nouvelle notice au lieu de transformer la notice BnF qui s'y trouve déjà, tandis que d’autres se localisent sous cette dernière. Une fusion des deux notices est alors nécessaire.

Réimpressions et retirages

Selon les règles du Sudoc (interprétation de la norme Z 44-050), on ne crée pas de nouvelle notice pour une réimpression de livre moderne si elle est parfaitement identique à la précédente impression. Il faut cependant rester très prudent lorsqu’il s’agit de fusionner des notices de réimpressions successives, et s’assurer que des changements, mêmes minimes et non indiqués dans la notice ou sur l’ouvrage, ne sont pas intervenus.

Ressources continues

La fusion des doublons de ressources continues a cela de particulier qu'elle vise à la fois :
- à intégrer dans la notice qui résulte de la fusion les zones sous contrôle ISSN (si une au moins des deux notices est issue d'un chargement ISSN)
- à préserver le travail effectué par les catalogueurs (dans le cas où une des deux notices au moins fait l'objet d'une demande de numérotation ou de correction en cours)

Il est de ce fait important d'être particulièrement attentif à la nature des notices constituant le doublon qu'il est envisagé de fusionner.

Les tables de fusion opèrent de manière "mécanique" (ajout / suppression de certaines zones ou sous-zones). Pour certaines situations susceptibles de ne pas générer à l'issue de la fusion automatique une notice respectueuse du travail effectué précédemment sur les notices par des catalogueurs du Sudoc, il est demandé de soumettre le doublon à l'ABES.

Plusieurs cas de figure peuvent se présenter :
(Attention! Dans tous les cas évoqués ci-dessous, si une notice au moins comporte des zones en caractères non latins (notices multi-écritures), le doublon est à signaler via le guichet d'assistance, domaine "Doublon de publication en série", pour traitement par l'ABES.)

Notices multi-écritures

Pour des raisons techniques (doublement de certaines zones), il s'avère impossible de transférer correctement par programme des informations d'une notice à une autre lors de la fusion de notices multi-écritures.
Les tables IXXX ne transférant pas de zones de données bibliographiques multi-écritures et le travail d'enrichissement de la notice préférée devant être fait manuellement ainsi qu'il est décrit ci-dessus (Règles de base du dédoublonnage), les notices de monographies multi-écritures peuvent être fusionnées par les dédoublonneurs.

En revanche, si le doublon porte sur des notices de ressources continues, le doublon est à signaler dans tous les cas de figure via le guichet d'assistance (domaine "Doublon de publication en série") pour traitement par l'ABES.

haut de page

 

Comment fonctionne une fusion?

Il s'agit d'ajouter, dans la notice que l’on veut supprimer, une zone 024
Exemple :  
024 $a[nom de la table de fusion]$bM$3[ppn de la notice préférée]  

Note : Pour aller plus vite (et éviter à un dédoublonneur la saisie rébarbative de données toujours identiques lors d'une fusion), l'ABES rappelle qu'il est possible de créer sous WinIBW un script qui ouvre en modification la notice à fusionner et insère automatiquement cette zone avec la table souhaitée (exemple : 024 $aI003$bM$3).
Il ne reste plus qu'à coller le bon ppn de la notice préférée puis de valider la notice.

Le programme qui traite les zones 024 et fusionne les notices démarre tous les jours à 19h00 : ne pas s’étonner donc si la modification n’est pas immédiatement effective !

Ce programme transfère de la notice fusionnée vers la notice conservée :

Pour cette dernière raison, et parce que ces tables de fusion agissent de manière mécanique (sans intelligence), il est préférable de vérifier la notice conservée une fois la fusion effective (donc après la fin du passage du programme, c’est-à-dire le plus souvent le lendemain). En effet, il peut être nécessaire de retirer de la notice qui résulte de la fusion certaines informations qui proviennent de la notice supprimée et qui sont fausses, redondantes ou inutiles (voir notices en statut B et Quelques cas particuliers - Ressources continues.

haut de page

 

Comment défusionner des notices ?

L'ABES rappelle avec insistance que défusionner est une activité lourde pour les bibliothèques du réseau concernées, synonyme de perte de temps puisqu'elle consiste à remettre le catalogue dans un état antérieur à une fusion qui n'aurait pas dû être faite.
C'est pourquoi un dédoublonneur ne doit lancer une fusion qu'avec la plus grande vigilance.

Il peut arriver cependant qu'un dédoublonneur un peu pressé ou fatigué (ou un programme de chargement de notices, voir au paragraphe "Statut B") ait fusionné à tort deux notices qui représentaient des entités bibliographiques différentes (par exemple, deux volumes d’une monographie en plusieurs volumes sans titre particulier…).

Une fois l'erreur repérée, il faut :

haut de page

 

Les notices en "statut B"

Lors des travaux de conversion des notices pour leur insertion dans la base du Sudoc, des outils automatiques de dédoublonnage ont été mis en œuvre de façon à fusionner des notices bibliographiques issues de différentes bases qui décrivaient la même entité bibliographique.
Ainsi, toute notice qui candidate à l’entrée dans la base de production est comparée par le système à toutes les notices présentes dans la base.

Les programmes de comparaison sont basés sur l'établissement de niveaux de similarité zone par zone dans un premier temps, puis sur la détermination d'un niveau de similarité pour l'ensemble de la notice.

Selon ce niveau de similarité,

Jusqu’en 2006, ces notices en statut B s’accumulaient, le rythme de résolution par les catalogueurs étant moins élevé que celui des créations de nouveaux candidats doublons. Comme ce statut gênait le passage de certains programmes de conversion et n’était pas compréhensible pour les utilisateurs du Sudoc public, fin 2006, après un chantier de dédoublonnage lancé par l’ABES, les notices en statut B restantes ont toutes été "déliées" : autrement dit, elles sont devenues des notices "normales", doublons possibles, certes, mais tout à fait utilisables par les catalogueurs.

Désormais, les notices créées (par programme exclusivement) avec un statut B lors des chargements de notices sont vérifiées rapidement, soit par l’ABES (c’est le cas des chargements réguliers de notices de publications en série fournies par le Centre international de l'ISSN), soit par les établissements concernés par le chargement de leurs propres données (c’est le cas de la reprise de catalogues locaux) : il peut donc arriver qu’on en rencontre, mais ce n’est en principe que temporaire.

Tout catalogueur qui rencontre une notice en statut B peut décider de fusionner ou non deux notices candidates doublons à l’aide de la commande DED, qui n’est pas rattachée à un login particulier. Se reporter à la page 024 pour davantage de détails.

En revanche, le catalogueur continuera à rencontrer (trop fréquemment, malheureusement) de "vrais" doublons, libres dans la jungle du Sudoc, non marqués et détectables seulement par l’être humain…

haut de page

 

Notices de ressources continues en Statut B

Les candidats doublons de ressources continues identifiés par programme lors des chargements réguliers de notices ISSN effectués par l'ABES dans le Sudoc sont traités par l'ABES dans les meilleurs délais. Néanmoins, si un catalogueur se trouve en situation d'en rencontrer et que la notice en statut B l'empêche de se localiser, il peut signaler ce doublon pour traitement prioritaire par l'ABES, sur le guichet d'assistance (domaine "Doublon de publication en série").

haut de page

 

A l'attention des bibliothèques dont les fonds ont fait l'objet d'un chargement dans le Sudoc avec création de notices en Statut B

Pour voir l'ensemble des notices préparées pour le dédoublonnage, c'est à dire contenant une zone 024, on peut balayer l'index SIM qui donne tous les candidats doublons par ordre alphabétique de la table utilisée, puis par ordre croissant de l'indice de similarité.

Exemple :  
bal sim sibb p 79.043  

Pour constituer des lots de candidats doublons pour une table donnée on effectuera la commande suivante, avec troncature :

Exemple :  
che sim L94X p?  
che sim L21X p 7?  

Les catalogueurs habilités ont la possibilité de déclencher, via la commande "DED", la fusion ou non des notices identifiées par ce biais, au moyen des commandes suivantes (se reporter à la page 024 pour davantage de détails) :

En cas de doute, la consigne de l'ABES est de "libérer" les deux notices en choisissant "ne pas fusionner".

Quelle que soit l'option activée, les opérations correspondantes sont réalisées en différé, chaque soir à partir de 19h00 (heure de passage du programme de fusion). Aucune fusion de notice n'est exécutée en temps réel en ligne.

En cas de fusion erronée, il est possible de revenir en arrière avant 19h00 en refaisant la commande DED et en choisissant "ne pas fusionner". Un message vous précise "le statut de la référence a changé", vous pourrez voir qu'en 024 le $bM [merge = fusionner] est remplacé par $bN [not merge = ne pas fusionner].

Dans l'intérêt de tous, le traitement des doublons liés au chargement d'un établissement particulier doit être fait dans les meilleurs délais, après un examen soigneux des notices.
Il est considéré comme étant du ressort de cet établissement.

haut de page

 

Annexe - Tables de fusion utilisées

Les fusions sont commandées par des tables sur lesquelles vous trouverez des informations complémentaires dans le document : Définition des tables de fusion

 

haut de page