Moissonnage des métadonnées⚓
Principe⚓
Le réservoir OAI-PMH de Star met à la disposition de l'ensemble de la communauté les métadonnées descriptives des thèses électroniques soutenues en France et validées dans Star, avec ou sans le lien vers le texte intégral (en cas de confidentialité).
OAI-PMH (Open archives initiative protocole for metadata harvesting) a pour but de demander de l'information, à travers quelques requêtes, à un serveur d'archives ouvertes.
Les échanges se font du client vers le serveur.
Attention :
Attention, ce n'est pas un protocole de recherche. Il n'y a pas d'interface compréhensible pour un humain.
Les opérations sont limitées. On s'intéresse à un différentiel, à ce qui a "poussé" entre telle et telle date par exemple.
Pourquoi utiliser le serveur OAI-PMH de Star ?⚓
Le serveur OAI-PHM de Star est utile pour :
- disséminer les métadonnées : le serveur OAI-PMH de Star doit être déclaré sur votre moteur de recherche OAISTER ;
- récupérer les métadonnées de son établissement : le serveur récupère les métadonnées aux formats souhaités. Par analogie avec le Sudoc, le protocole OAI-PMH permet d'assurer des transferts réguliers de métadonnées.
- récupérer les métadonnées des autres établissements en fonction des points de vue possibles prévus par le serveur (exemple : les disciplines).
Les limites du protocole⚓
Le protocole ne concerne que les métadonnées, pas les documents.
L'organisation de la "collection" est définie a priori. Ont été définis :
- une entrée par établissement de soutenance ;
- une entrée par grand domaine disciplinaire tef:oai_setSpec ;
- une entrée pour les thèses diffusables en texte intégral.
Le client ne peut pas croiser les "sets".
Exemple :
Si le set "toutes les thèses de Nancy 2 en théologie chrétienne" n'existe pas, le client ne pourra pas demander les métadonnées correspondantes.
L'accès au serveur OAI-PMH de Star⚓
Le serveur OAI-PMH de Star est accessible à l'adresse suivante, incluant la gestion des resumption tokens :
http://staroai.theses.fr/OAIHandler
Les données du serveur OAI-PMH de Star sont des données réelles : ce sont les thèses qui sont désignées par leur établissement comme étant "moissonnables", qui sont passées par l'application Star, qui sont archivées au CINES et qui sont signalées dans le Sudoc.
Les données sont présentées à travers trois types de sets :
- les établissements habilités à délivrer des diplômes de doctorat ;
- les disciplines, en fonction des codes <tef:oai_setSpec> (codes eux-mêmes basés sur les grandes classes de la Classification Dewey) ;
- la diffusion en texte intégral des thèses.
Vous pouvez récupérer les données dans les formats suivants :
- Dublin Core ;
- TEF.
Pour la validation de notre serveur, nous avons utilisé le validateur Open Archives Initiative - Repository Explorer
Conseil : Comment récupérer le fichier thèse ?⚓
Pour récupérer les fichiers de la thèse décrit dans les métadonnées, votre client OAI doit :
Récupérer les métadonnées au format TEF.
Ouvrir ces métadonnées afin d'y retrouver l'URL d'accès de la thèse.
Utiliser cette URL (via une requête http) pour récupérer le fichier de thèse.
Panorama des transactions possibles : verbes OAI⚓
Six échanges sont possibles. En conséquence, il existe 6 "verbes OAI".
Conseil : IDENTIFY⚓
Le client demande au serveur : Qui es tu ? Qu'as-tu à m'offrir ?
Le serveur de Star répond : voilà mon nom, mon URL, je peux t'offrir l'accès aux métadonnées de thèses électroniques telles que validées par les jurys pour les établissements qui ont changé de mode de dépôt légal des thèses.
Conseil : LISTMETADATA FORMATS⚓
Le client demande au serveur : quelle langue parles-tu ? dans quels formats peux-tu me donner ce que je te demande ?
Le serveur de Star répond : je suis multilingue : ma langue maternelle est le Dublin Core, mais je peux parler aussi TEF, MarcXML...
http://staroai.theses.fr/OAIHandler?verb=ListMetadataFormats
Conseil : LISTSETS⚓
Le client demande au serveur : Comment es-tu organisé ? Comment vais-je retrouver un document dans tes rayonnages virtuels ?
Le serveur de Star répond : ma collection est organisée selon différents points de vue. Par exemple, je m'intéresse à l'établissement de soutenance : il y a un ensemble (un "set") par établissement de soutenance. Je m'intéresse aussi aux disciplines scientifiques : il y a un "set" par code disciplinaire.
Conseil : LISTIDENTIFIERS⚓
Le client demande au serveur : donne-moi les identifiants des thèses de Nancy 2, au format Dublin Core.
Le serveur de Star répond : voilà la liste demandée. Dedans, il y a notamment la thèse 2007NAN20015 :
http://staroai.theses.fr/OAIHandler?verb=ListIdentifiers&metadataPrefix=oai_dc&set=NAN2
Décharger les identifiants de l'université de Tours :
http://staroai.theses.fr/OAIHandler?verb=ListIdentifiers&metadataPrefix=oai_dc&set=TOUR
Décharger les identifiants de l'INPL :
http://staroai.theses.fr/OAIHandler?verb=ListIdentifiers&metadataPrefix=tef&set=INPL
Décharger tous les identifiants de la base :
http://staroai.theses.fr/OAIHandler?verb=ListIdentifiers&metadataPrefix=tef
Conseil : GETRECORD⚓
Le client demande au serveur : donne-moi le contenu des métadonnées de la thèse 2007NAN20015 en TEF.
Le serveur de Star répond : voilà le contenu en TEF :
http://staroai.theses.fr/OAIHandler?verb=GetRecord&identifier=2007NAN20015&metadataPrefix=tef
Décharger les métadonnées de la thèse ayant comme N° National de Thèse (NNT) en format Dublin Core :
http://staroai.theses.fr/OAIHandler?verb=GetRecord&identifier=2006INPL017N&metadataPrefix=oai_dc
Décharger les métadonnées de la thèse ayant comme N° National de Thèse (NNT) en format TEF :
http://staroai.theses.fr/OAIHandler?verb=GetRecord&identifier=2006INPL017N&metadataPrefix=tef
Conseil : LISTRECORD⚓
Le client demande au serveur : je suis déjà venu le 1er janvier 2011. Donne-moi tout ce que tu as de neuf concernant les dépôts effectués par l'Université de Tours :
Le serveur de STAR répond : j'en ai 139 à te donner. Voilà le contenu des 100 premiers et un jeton (resumptionToken) pour recevoir les 39 suivants.
<resumptionToken expirationDate="2011-01-27T16:23:38Z" completeListSize="139" cursor="0">1296141818618</resumptionToken>
Le client demande au serveur : voilà le jeton pour recevoir les 39 suivants.
http://staroai.theses.fr/OAIHandler?verb=ListRecords&resumptionToken=1296141818618
Le serveur de STAR répond : voilà le contenu des 39 suivants. C'est terminé.
Décharger les notices en format Dublin Core :
http://staroai.theses.fr/OAIHandler?verb=ListRecords&metadataPrefix=oai_dc
Décharger les notices en format TEF :
http://staroai.theses.fr/OAIHandler?verb=ListRecords&metadataPrefix=tef
Décharger les notices en format TEF ajoutées ou mises à jour dans le réservoir entre le 25 octobre 2010 à 14h14 et le 25 janvier 2011 à 14h14 :
Décharger les notices en format TEF ajoutées ou mises à jour dans le réservoir entre le 25 octobre 2010 à 14h14 et le 25 janvier 2011 à 14h14 concernant la discipline ddc:620 (Sciences de l'ingénieur) :
Attention :
Dans tous les cas de figure, veuillez noter que le resumptionToken change à chaque nouvelle requête. Pour parcourir une liste de plus de 100 résultats, un programme doit aller chercher le "jeton" renvoyé dans la réponse xml, et le renvoyer à nouveau pour obtenir la suite de la liste.