Récupérer les données de thèses en RDF

Récupérer des données via l'API XML

Les données d'une thèse sont disponibles au format RDF/ XML.

Pour obtenir les données affichées sur la page descriptive d'une thèse vous devez :

  1. Lancez une requête dans la barre de recherche de theses.fr (voir rubriques « Utiliser la recherche simple de theses.fr » et « Utiliser la recherche avancée de theses.fr »).

  2. Sélectionnez une thèse, soutenue ou en préparation.

  3. Ajoutez à l'URL de la page de cette thèse un paramètre pour obtenir les données brutes dans le format de votre choix : .xml ou .rdf (Ex : https://www.theses.fr/NNT.rdf)

  4. Les données brutes décrivant la thèse s'affichent au format .rdf.

Vocabulaires utilisés par l'API XML

L'ABES a fait le choix de réutiliser des vocabulaires déjà existants :

  • BIBO (Bibliographic Ontology) pour identifier les thèses ;
  • ISBD pour décrire des documents ;
  • FOAF (Friend of a friend) pour identifier les personnes et les organismes ;
  • Marc Relator Terms et Dublin Core pour caractériser les liens entre les personnes et organismes et les thèses.

Données récupérables via l'API XML

Les informations qui figurent dans les données RDF sont les suivantes

ComplémentUn bloc <bibo:Document> décrivant la notice

<bibo:Document> : URL de la notice

<foaf:primaryTopic>

<dcterms:creator> : identifiant pérenne (PPN) du créateur de la notice, à savoir l'ABES

<dcterms:created> : date de création de la notice dans theses.fr, en UTC (attention, il ne s'agit pas de la date de création du sujet de thèse, mais bien de la date de première publication de la notice de thèse dans theses.fr)

<dcterms:created> : date de dernière mise à jour de la notice, en UTC

ComplémentUn bloc <bibo:Thesis> décrivant la thèse

<dc:title> : le titre de la thèse ou du sujet de la thèse

<dc:date> : l'année de soutenance ou date de début de préparation de la thèse

<dcterms:dateAccepted> : la date de soutenance complète de la thèse, sous la forme AAAA-MM-JJ (pour les thèses soutenues). Pour les thèses en préparation, un second <dcterms:created>, après le <dc:date> : la date de début d'inscription en doctorat, sous la forme AAAA-MM-JJ

<dc:type> : le type de document selon les standards Dublin Core, à savoir, pour toutes les thèses soutenues :

  • Première balise <dc:type> : « Electronic Thesis Or Dissertation » (Thèse ou mémoire électronique)
  • Seconde balise <dc:type> : « Text » (document textuel)

<isbd:P1001> (pour les thèses nativement électroniques seulement) : un premier type de document selon les standards de la norme ISBD

  • <skos:Concept> : renvoi à la norme ISBD utilisée
  • <skos:prefLabel> : pour toutes les thèses soutenues, « text »

<isbd:P1003> (pour les thèses nativement électroniques seulement) : un second type de document selon les standards de la norme ISBD

  • <skos:Concept> : renvoi à la norme ISBD utilisée
  • <skos:prefLabel> : pour toutes les thèses soutenues, « electronic »

<dcterms:language> : vocabulaire utilisé pour les codes de langues présents dans les balises des résumés et des mots clés

<dcterms:abstract> : résumé en français (si lang=fr), en anglais (si lang=en), etc

<dc:subject xml:lang=> : mots clés en français (si lang=fr), en anglais (si lang=en), etc

  • Quand la balise <dc:subject xml:lang=> est suivi d'une balise <dcterms:subject>, cela signifie qu'il s'agit d'un mot clé issu d'un thesaurus. L'identifiant du mot clé au sein du thesaurus est indiqué dans la balise <dcterms:subject>
  • Quand la balise <dc:subject xml:lang=> est suivi d'une balise <dcterms:subject>, cela signifie qu'il s'agit d'un mot clé libre.

<dc:subject xsi:type> : indice de classification Dewey attribué à la thèse

  • Cette balise est suivie d'une balise <dcterms:subject> qui vous renvoie vers la classification Dewey.

►Pour les thèses soutenues, un sous-bloc <marcrel:aut> qui décrit l'auteur de la thèse, identifié dans la base de données IdRef :

  • <foaf:Person> : URL de la page de la personne dans la base de données IdRef.fr
  • <foaf:name> : nom et prénom de l'auteur de la thèse

►Pour les thèses en préparation, un sous-bloc <marcrel:dis> qui décrit l'auteur de la thèse, lequel n'a pas encore été identifié dans la base de données IdRef :

  • <foaf:Person> : URL de la page de la personne dans la base de données IdRef.fr
  • <foaf:name> : nom et prénom du directeur de la thèse

►Un sous-bloc <marcrel:ths> qui décrit le directeur de la thèse :

  • <foaf:Person> : URL de la page de la personne dans la base de données IdRef.fr (lorsque le directeur de thèse a été correctement identifié)
  • <foaf:name> : nom et prénom du directeur de la thèse

►Un premier sous-bloc <marcrel:dgg> qui décrit l'établissement de soutenance ou de préparation de la thèse

  • <foaf:Organization> : URL de la page de l'établissement de soutenance ou de préparation dans la base de données IdRef.fr
  • <foaf:name> : nom de l'établissement de soutenance ou de préparation de la thèse

►Un second bloc <marcrel:dgg> qui décrit l'école doctorale à laquelle est rattachée la thèse

  • <foaf:Organization> : URL de la page de l'école doctorale à laquelle est rattachée la thèse dans la base de données IdRef.fr
  • <foaf:name> : nom l'école doctorale à laquelle est rattachée la thèse

►En commentaire : les noms des membres du jury, du président du jury et des rapporteurs.

►Un ou plusieurs bloc <dcterms:contributor> : balise décrivant les partenaires de recherche de la thèse (établissement d'inscription au sein d'une COMUE, laboratoire, équipe de recherche, etc)

  • <foaf:Agent> : URL de la page du partenaire de recherche dans la base de données IdRef.fr
  • <foaf:name> : nom du partenaire de recherche

►Pour les thèses soutenues, <dc:identifier> : URL permettant d'accéder au texte intégral de la thèse lorsque celle-ci fait l'objet d'une diffusion en ligne