Moissonnage des métadonnées

Principe

Le réservoir OAI-PMH de Star met à la disposition de l'ensemble de la communauté les métadonnées descriptives des thèses électroniques soutenues en France et validées dans Star, avec ou sans le lien vers le texte intégral (en cas de confidentialité).

OAI-PMH (Open archives initiative protocole for metadata harvesting) a pour but de demander de l'information, à travers quelques requêtes, à un serveur d'archives ouvertes.

Les échanges se font du client vers le serveur.

Attention

Attention, ce n'est pas un protocole de recherche. Il n'y a pas d'interface compréhensible pour un humain.

Les opérations sont limitées. On s'intéresse à un différentiel, à ce qui a "poussé" entre telle et telle date par exemple.

Pourquoi utiliser le serveur OAI-PMH de Star ?

Le serveur OAI-PHM de Star est utile pour :

  • disséminer les métadonnées : le serveur OAI-PMH de Star doit être déclaré sur votre moteur de recherche OAISTER ;
  • récupérer les métadonnées de son établissement : le serveur récupère les métadonnées aux formats souhaités. Par analogie avec le Sudoc, le protocole OAI-PMH permet d'assurer des transferts réguliers de métadonnées.
  • récupérer les métadonnées des autres établissements en fonction des points de vue possibles prévus par le serveur (exemple : les disciplines).

Les limites du protocole

Le protocole ne concerne que les métadonnées, pas les documents.

L'organisation de la "collection" est définie a priori. Ont été définis :

  • une entrée par établissement de soutenance ;
  • une entrée par grand domaine disciplinaire tef:oai_setSpec ;
  • une entrée pour les thèses diffusables en texte intégral.

Le client ne peut pas croiser les "sets".

Exemple

Si le set "toutes les thèses de Nancy 2 en théologie chrétienne" n'existe pas, le client ne pourra pas demander les métadonnées correspondantes.

L'accès au serveur OAI-PMH de Star

Le serveur OAI-PMH de Star est accessible à l'adresse suivante, incluant la gestion des resumption tokens :

http://staroai.theses.fr/OAIHandler

Les données du serveur OAI-PMH de Star sont des données réelles : ce sont les thèses qui sont désignées par leur établissement comme étant "moissonnables", qui sont passées par l'application Star, qui sont archivées au CINES et qui sont signalées dans le Sudoc.

Les données sont présentées à travers trois types de sets :

  • les établissements habilités à délivrer des diplômes de doctorat ;
  • les disciplines, en fonction des codes <tef:oai_setSpec> (codes eux-mêmes basés sur les grandes classes de la Classification Dewey) ;
  • la diffusion en texte intégral des thèses.

Vous pouvez récupérer les données dans les formats suivants :

  • Dublin Core ;
  • TEF.

Pour la validation de notre serveur, nous avons utilisé le validateur Open Archives Initiative - Repository Explorer

ConseilComment récupérer le fichier thèse ?

Pour récupérer les fichiers de la thèse décrit dans les métadonnées, votre client OAI doit :

  1. Récupérer les métadonnées au format TEF.

  2. Ouvrir ces métadonnées afin d'y retrouver l'URL d'accès de la thèse.

  3. Utiliser cette URL (via une requête http) pour récupérer le fichier de thèse.

Panorama des transactions possibles : verbes OAI

Six échanges sont possibles. En conséquence, il existe 6 "verbes OAI".

ConseilIDENTIFY

Le client demande au serveur : Qui es tu ? Qu'as-tu à m'offrir ?

Le serveur de Star répond : voilà mon nom, mon URL, je peux t'offrir l'accès aux métadonnées de thèses électroniques telles que validées par les jurys pour les établissements qui ont changé de mode de dépôt légal des thèses.

http://staroai.theses.fr/OAIHandler?verb=Identify

ConseilLISTMETADATA FORMATS

Le client demande au serveur : quelle langue parles-tu ? dans quels formats peux-tu me donner ce que je te demande ?

Le serveur de Star répond : je suis multilingue : ma langue maternelle est le Dublin Core, mais je peux parler aussi TEF, MarcXML...

http://staroai.theses.fr/OAIHandler?verb=ListMetadataFormats

ConseilLISTSETS

Le client demande au serveur : Comment es-tu organisé ? Comment vais-je retrouver un document dans tes rayonnages virtuels ?

Le serveur de Star répond : ma collection est organisée selon différents points de vue. Par exemple, je m'intéresse à l'établissement de soutenance : il y a un ensemble (un "set") par établissement de soutenance. Je m'intéresse aussi aux disciplines scientifiques : il y a un "set" par code disciplinaire.

http://staroai.theses.fr/OAIHandler?verb=ListSets

ConseilLISTIDENTIFIERS

Le client demande au serveur : donne-moi les identifiants des thèses de Nancy 2, au format Dublin Core.

Le serveur de Star répond : voilà la liste demandée. Dedans, il y a notamment la thèse 2007NAN20015 :

http://staroai.theses.fr/OAIHandler?verb=ListIdentifiers&metadataPrefix=oai_dc&set=NAN2

Décharger les identifiants de l'université de Tours :

http://staroai.theses.fr/OAIHandler?verb=ListIdentifiers&metadataPrefix=oai_dc&set=TOUR

Décharger les identifiants de l'INPL :

http://staroai.theses.fr/OAIHandler?verb=ListIdentifiers&metadataPrefix=tef&set=INPL

Décharger tous les identifiants de la base :

http://staroai.theses.fr/OAIHandler?verb=ListIdentifiers&metadataPrefix=tef

ConseilGETRECORD

Le client demande au serveur : donne-moi le contenu des métadonnées de la thèse 2007NAN20015 en TEF.

Le serveur de Star répond : voilà le contenu en TEF :

http://staroai.theses.fr/OAIHandler?verb=GetRecord&identifier=2007NAN20015&metadataPrefix=tef

Décharger les métadonnées de la thèse ayant comme N° National de Thèse (NNT) en format Dublin Core :

http://staroai.theses.fr/OAIHandler?verb=GetRecord&identifier=2006INPL017N&metadataPrefix=oai_dc

Décharger les métadonnées de la thèse ayant comme N° National de Thèse (NNT) en format TEF :

http://staroai.theses.fr/OAIHandler?verb=GetRecord&identifier=2006INPL017N&metadataPrefix=tef

ConseilLISTRECORD

Le client demande au serveur : je suis déjà venu le 1er janvier 2011. Donne-moi tout ce que tu as de neuf concernant les dépôts effectués par l'Université de Tours :

http://staroai.theses.fr/OAIHandler?verb=ListRecords&metadataPrefix=tef&set=TOUR&from=2011-01-01T00:00:00Z&until=2025-01-25T00:00:00Z

Le serveur de STAR répond : j'en ai 139 à te donner. Voilà le contenu des 100 premiers et un jeton (resumptionToken) pour recevoir les 39 suivants.

<resumptionToken expirationDate="2011-01-27T16:23:38Z" completeListSize="139" cursor="0">1296141818618</resumptionToken>

Le client demande au serveur : voilà le jeton pour recevoir les 39 suivants.

http://staroai.theses.fr/OAIHandler?verb=ListRecords&resumptionToken=1296141818618

Le serveur de STAR répond : voilà le contenu des 39 suivants. C'est terminé.

Décharger les notices en format Dublin Core :

http://staroai.theses.fr/OAIHandler?verb=ListRecords&metadataPrefix=oai_dc

Décharger les notices en format TEF :

http://staroai.theses.fr/OAIHandler?verb=ListRecords&metadataPrefix=tef

Décharger les notices en format TEF ajoutées ou mises à jour dans le réservoir entre le 25 octobre 2010 à 14h14 et le 25 janvier 2011 à 14h14 :

http://staroai.theses.fr/OAIHandler?verb=ListRecords&metadataPrefix=tef&from=2010-10-25T14:14:36Z&until=2011-01-25T14:14:40Z

Décharger les notices en format TEF ajoutées ou mises à jour dans le réservoir entre le 25 octobre 2010 à 14h14 et le 25 janvier 2011 à 14h14 concernant la discipline ddc:620 (Sciences de l'ingénieur) :

http://staroai.theses.fr/OAIHandler?verb=ListRecords&metadataPrefix=tef&from=2009-01-25T14:14:36Z&until=2011-01-25T14:14:40Z&set=ddc:620

Attention

Dans tous les cas de figure, veuillez noter que le resumptionToken change à chaque nouvelle requête. Pour parcourir une liste de plus de 100 résultats, un programme doit aller chercher le "jeton" renvoyé dans la réponse xml, et le renvoyer à nouveau pour obtenir la suite de la liste.