Le dédoublonnage

Chapitre 1. Histoire d’un combat

Le Sudoc était, à son ouverture, la résultante de la fusion de cinq bases ou parties de bases bibliographiques : CCN-PS, Téléthèses, SIBIL, OCLC, BN-Opale. Des notices en provenance des bibliothèques hors-source ou issues des programmes de rétroconversion utilisant les cédéroms de la Bibliothèque Nationale s’y ajoutèrent.

Les notices, issues de ces différentes bases, qui décrivaient la même entité bibliographique ont été fusionnées, grâce à des outils de dédoublonnage mis en œuvre à cette époque, et toujours utilisés à chaque chargement de notice en provenance de nouvelles bibliothèques.

Comment fonctionnent ces outils ?

Dans un premier temps, les notices sont comparées par le biais de certaines entrées d'index (les ISBN ou la clé « titre »). Seules les notices comportant des entrées d'index semblables sont ensuite comparées deux par deux. Les programmes de comparaison sont basés sur l'établissement de niveaux de similarité zone par zone dans un premier temps, puis, par le biais de coefficients de pondération, sur la détermination d'un niveau de similarité pour l'ensemble de la notice, décidant de sa fusion automatique ou de son intégration comme nouvelle notice.

De 2000 à 2005, un statut supplémentaire, « doublon potentiel », a permis de marquer les notices dont le taux de similarité avec une notice déjà présente dans la base se situait entre 80 et 95%. Ce statut était identifiable par la présence d’un « B ? » en position 2 de la zone 008, à la place du statut « x » normal.

Le statut « B » nécessitait le recours à une expertise humaine pour déterminer s'il fallait ou non procéder à la fusion des notices identifiées comme doublons potentiels.

Il a été supprimé des notices de la base en décembre 2005, car il empêchait la localisation sous les notices marquées, ce qui gênait le travail des catalogueurs qui n’étaient pas toujours en mesure de prendre la décision adéquate (en particulier lors d’opérations de conversions rétrospectives).

Depuis le 1er janvier 2006, le statut « B ? » est utilisé ponctuellement pour marquer des notices en cours de chargement (livraison d’une bibliothèque ou chargement ISSN par exemple). Ces notices, sous lesquelles on ne peut pas se localiser tant qu’elles portent ce « B? » en zone 008, sont désormais résiduelles et peuvent être traitées soit par l’ABES soit par n’importe quel catalogueur qui les rencontre (taper la commande DED, puis choisir entre « Fusionner » ou « Ne pas fusionner »). Elles sont ensuite utilisables comme n’importe quelle autre notice de la base (statut normal « x »).

Pour le réseau du Sudoc, quatre cas de figure sont à prendre en compte :