Récupérer des données au format XML

Pour récupérer des données au format XML, vous devez ajouter &format=xml à la suite de l'URL de la requête.

http://www.theses.fr/?q=intelligence+artificielle&format=xml

Vous obtenez le fichier XML de réponse de SolR.

AttentionAttention

Pour des questions de performance, le nombre de résultats exportés est volontairement limité par défaut à 1000. Pour récupérer l'ensemble des données qui vous intéressent, vous pouvez modifier votre requête en ajoutant, dans l'URL, &start=X, X étant le numéro du résultat à partir duquel vous souhaitez réaliser votre export. Vous pourrez ainsi exporter les résultats par groupe de 1000, puis les concaténer ensemble au sein d'un même fichier.

Cas des données décrivant les thèses soutenues ou en préparation

Ce fichier XML obtenu contient les informations suivantes

ComplémentUn premier bloc <lst> qui affiche les paramètres ("params") de la réponse SolR

"mm" : nombre minimum (exprimé en pourcentage) des clauses de la requête qui seront respectées par le moteur de recherche au moment de fournir une liste de résultats

"facet", "facet.mincount" et "facet.limit" : paramètres des facettes de tri

"sort"= : type de tri que vous avez choisi

  • dateInsert desc = tri par défaut (« pertinence » lorsque vous explorez toute la base)
  • auteurTri asc = tri par noms d'auteur classés de A à Z
  • auteurTri desc = tri par noms d'auteur classés de Z à A
  • titreTri asc = tri par titres classés de A à Z
  • titreTri desc = tri par titres classés de Z à A
  • disciplineTri asc = tri par disciplines classées de A à Z
  • disciplineTri desc = tri par disciplines classées de Z à A
  • dateSoutenance asc = tri par dates de soutenance classées par ordre croissant
  • dateSoutenance desc = tri par dates de soutenance classées par ordre décroissant
  • sujDatePremiereInscription asc = tri par dates de première inscription en doctorat classées par ordre croissant
  • sujDatePremiereInscription desc = tri par dates de première inscription en doctorat classées par ordre décroissant

"qf" : pondération entre les index, appliquée dans theses.fr

►"rows" : nombre de résultats renvoyés par la réponse. Ce nombre est fixé à 10 par défaut, mais vous pouvez le modifier en ajoutant, à la suite de l'URL de votre requête &rows=X, X étant le nombre de résultats que vous souhaitez faire remonter.

"fl" = liste des index qui doivent être affichés dans la réponse.

"start" : numéro du résultat à partir duquel la réponse du SolR s'affiche. Par défaut, l'affichage commence au résultat 0. Si, au moment de lancer l'API XML, vous vous trouviez sur la page 4 de la liste des résultats, l'affichage des données commencera au résultat 30.

"q" : votre requête

"qt">dismax< : ce paramètre appelle la pondération des index précisée dans qf.

"fq" : période sur laquelle porte votre requête. Par défaut, votre requête porte sur l'ensemble des thèses de theses.fr, soit une période allant du 01/01/1965 à aujourd'hui.

ComplémentLe sous-bloc "facet.field" qui remonte les critères de tri que vous avez éventuellement sélectionnés via les facettes de theses.fr

etablissement (= facette par établissement) : nom du ou des établissements sélectionnés, ainsi que le nombre d'occurrences.

discipline (= facette par discipline) : libellé de la ou des disciplines sélectionnées et nombre d'occurrences.

ecoleDoctorale (= facette par école doctorale) : libellé de la ou des écoles doctorales et nombre d'occurrences.

langueThese (= facette par langue) : code de la ou des langues sélectionnées (le code se compose de deux caractères) et nombre d'occurrences.

directeurTheseNP (= facette par directeur de thèse) : nom et prénom du ou des directeurs de thèse et nombre d'occurrences.

oaiSetSpec (= facette par domaine) : codes du ou des domaines thématiques auxquels se rattache la thèse. Ces codes sont issus de la classification décimale Dewey et utilisés par la recommandation TEF (Thèses Electroniques Françaises).

ComplémentLe bloc <result name="response"> qui vous indique

"numFound" : le nombre de résultats trouvés par le SolR

"start" : le numéro du résultat à partir duquel la réponse du SolR s'affiche. Par défaut, l'affichage commence au résultat 0. Si, au moment de lancer l'API XML, vous vous trouviez sur la page 4 de la liste des résultats, l'affichage des données commencera au résultat 30.

ComplémentLes blocs <doc> qui donnent, pour chaque thèse ou projet de thèse, les informations suivantes

"accessible" : oui si le document est diffusé sur le web ; non s'il ne l'est pas (pour les thèses en préparation, l'information sera toujours « non »).

"auteur" : nom et prénom de l'auteur

"auteurPpn" : numéro de la notice d'autorité de l'auteur dans la base de données du Sudoc et dans IdRef. Il s'agit d'un identifiant unique composé de 9 caractères et attribué par les bibliothécaires de l'enseignement supérieur français. Pour les thèses en préparation, cette information sera vide.

"dateInsert" : date de première publication de la page de thèse dans theses.fr.

"dateMaj" : date de dernière mise à jour des informations décrivant la thèse.

"dateSoutenance" : date de soutenance (pour les thèses soutenues uniquement).

"directeurTheses" : prénom et nom des directeurs de thèses, sous forme de liste

"directeurTheseNP" : nom et prénom des directeurs de thèses, sous forme de liste

"directeursThese" : nom et prénom du premier directeur de thèse, suivi du nom et prénom du deuxième directeur de thèse, etc.

"directeurThesePpn" : numéro de la notice d'autorité du directeur de thèse dans la base de données du Sudoc et dans IdRef. Il s'agit d'un identifiant unique composé de 9 caractères et attribué par les bibliothécaires de l'enseignement supérieur français.

"discipline" : discipline de la thèse

"etabSoutenance" : nom de l'établissement de soutenance

"etabSoutenancePpn" : numéro de la notice d'autorité de l'établissement de soutenance dans la base de données du Sudoc et dans IdRef. Il s'agit d'un identifiant unique composé de 9 caractères et attribué par les bibliothécaires de l'enseignement supérieur français.

"etablissement" : nom de l'établissement de soutenance et de l'établissement de cotutelle, sous forme de liste.

"id" : identifiant interne de la thèse dans theses.fr

"langueThese" : langues de la thèse, sous forme de liste.

"num" : numéro national de thèse, pour les thèses soutenues

"oaiSetSpec" : codes du ou des domaines thématiques auxquels se rattache la thèse. Ces codes sont issus de la classification décimale Dewey et utilisés par la recommandation TEF (Thèses Electroniques Françaises).

"personne" : personnes liées à la thèse (auteur, directeur de thèse, membres du jury, etc), sous forme de liste indiquant d'abord la forme nom + prénom de l'identité des personnes, puis la forme prénom + nom.

"ppn" : liste des numéros de notices d'autorité, dans la base de données du Sudoc et dans IdRef, présents dans la description du document (auteur, directeurs de thèse, membres du jury, établissement de soutenance, école doctorale, partenaire de recherche, etc). Il s'agit d'identifiants uniques composés de 9 caractères et attribués par les bibliothécaires de l'enseignement supérieur français.

"status" : statut de la thèse (ex : « soutenue » pour les thèses soutenues, « enCours » pour les thèses en préparation).

"sujDatePremiereInscription" : pour les thèses en cours de préparation, date de première inscription du doctorant en doctorat.

"titre" : titre de la thèse.

Cas des données décrivant les personnes

Ce fichier XML obtenu contient les informations suivantes

ComplémentLe bloc <result name="response"> qui vous indique

"numFound" : le nombre de résultats trouvés par le SolR

"start" : le numéro du résultat à partir duquel la réponse du SolR s'affiche. Par défaut, l'affichage commence au résultat 0. Si, au moment de lancer l'API XML, vous vous trouviez sur la page 4 de la liste des résultats, l'affichage des données commencera au résultat 30.

ComplémentLes blocs <doc> qui donnent pour chaque personne les informations suivantes

"personne" : prénom et nom de la personne

"personneNP" : nom et prénom de la personne

"dateInsert" : date de première publication de la page de la personne dans theses.fr.

"dateMaj" : date de dernière mise à jour des informations décrivant la personne.

"ppn" : numéro de la notice d'autorité de la personne dans la base de données du Sudoc et dans IdRef. Il s'agit d'un identifiant unique composé de 9 caractères et attribué par les bibliothécaires de l'enseignement supérieur français. « null » indique que la personne n'a pas encore été identifiée et ne dispose donc pas encore d'un PPN.

"actif" : oui si la personne est en lien avec des thèses soutenues ou en préparation depuis moins de 5 ans ; non si la personne est en lien avec des thèses soutenues ou en préparation depuis plus de 5 ans.

"thesesEnTantQueDirecteur" : nombre, identifiants et titres des thèses pour lesquelles la personne a été directrice de thèse.

  • "nbTheses" : nombre de thèses pour lesquelles la personne a été directrice de thèse.
  • "numThesesEnTantQueDirecteur" : identifiants internes des thèses pour lesquelles la personne a été directrice de thèse.
  • "titreThesesEnTantQueDirecteur" : titres des thèses pour lesquelles la personne a été directrice de thèse.

"thesesEnTantQuAuteur" : nombre, identifiants et titres des thèses dont la personne a été auteur.

  • "nbTheses" : nombre de thèses dont la personne a été auteur.
  • "numThesesEnTantQueAuteur" : identifiants internes des thèses dont la personne a été auteur.
  • "titreThesesEnTantQueAuteur" : titres des thèses dont la personne a été auteur.

"thesesEnTantQueRapporteur" : nombre, identifiants et titres des thèses pour lesquelles la personne a été rapporteur.

"nbTheses" : nombre de thèses pour lesquelles la personne a été rapporteur.

"numThesesEnTantQueRapporteur" : identifiants internes des thèses pour lesquelles la personne a été rapporteur.

"titreThesesEnTantQueRapporteur" : titres des thèses pour lesquelles la personne a été rapporteur.