Récupérer des données au format JSON

Pour récupérer des données au format JSON, vous devez rajouter &format=json à la suite de l'URL de la requête.

http://www.theses.fr/?q=intelligence+artificielle&format=json

Vous obtenez le fichier JSON de réponse de SolR.

Cas des données décrivant les thèses soutenues ou en préparation

Ce fichier JSON obtenu contient les informations suivantes

ComplémentUn premier bloc paramètres ("params") de la réponse SolR

"mm" : nombre minimum (exprimé en pourcentage) des clauses de la requête qui seront respectées par le moteur de recherche au moment de fournir une liste de résultats

"facet", "facet.mincount" et "facet.limit" : paramètres des facettes de tri

"sort"= : type de tri que vous avez choisi

  • dateInsert desc = tri par défaut (« pertinence » lorsque vous explorez toute la base)
  • auteurTri asc = tri par noms d'auteur classés de A à Z
  • auteurTri desc = tri par noms d'auteur classés de Z à A
  • titreTri asc = tri par titres classés de A à Z
  • titreTri desc = tri par titres classés de Z à A
  • disciplineTri asc = tri par disciplines classées de A à Z
  • disciplineTri desc = tri par disciplines classées de Z à A
  • dateSoutenance asc = tri par dates de soutenance classées par ordre croissant
  • dateSoutenance desc = tri par dates de soutenance classées par ordre décroissant
  • sujDatePremiereInscription asc = tri par dates de première inscription en doctorat classées par ordre croissant
  • sujDatePremiereInscription desc = tri par dates de première inscription en doctorat classées par ordre décroissant

"qf" : pondération entre les index, appliquée dans theses.fr

"wt"

"rows" : nombre de résultats renvoyés par la réponse. Ce nombre est fixé à 10 par défaut, mais vous pouvez le modifier en ajoutant, à la suite de l'URL de votre requête &rows=X, X étant le nombre de résultats que vous souhaitez faire remonter.

"fl" = liste des index qui doivent être affichés dans la réponse.

"start" : numéro du résultat à partir duquel la réponse du SolR s'affiche. Par défaut, l'affichage commence au résultat 0. Si, au moment de lancer l'API XML, vous vous trouviez sur la page 4 de la liste des résultats, l'affichage des données commencera au résultat 30.

"q" : votre requête

"qt":"dismax" : ce paramètre appelle la pondération des index précisée dans qf.

"fq" : période sur laquelle porte votre requête. Par défaut, votre requête porte sur l'ensemble des thèses de theses.fr, soit une période allant du 01/01/1965 à aujourd'hui.

ComplémentLe sous-bloc "facet.field" qui remonte les critères de tri que vous avez éventuellement sélectionnés via les facettes de theses.fr

etablissement (= facette par établissement) : nom du ou des établissements sélectionnés, ainsi que le nombre d'occurrences.

discipline (= facette par discipline) : libellé de la ou des disciplines sélectionnées et nombre d'occurrences.

ecoleDoctorale (= facette par école doctorale) : libellé de la ou des écoles doctorales et nombre d'occurrences.

langueThese (= facette par langue) : code de la ou des langues sélectionnées (le code se compose de deux caractères) et nombre d'occurrences.

directeurTheseNP (= facette par directeur de thèse) : nom et prénom du ou des directeurs de thèse et nombre d'occurrences.

oaiSetSpec (= facette par domaine) : codes du ou des domaines thématiques auxquels se rattache la thèse. Ces codes sont issus de la classification décimale Dewey et utilisés par la recommandation TEF (Thèses Electroniques Françaises).

ComplémentLe bloc "response" qui vous indique

"numFound" : le nombre de résultats trouvés par le SolR

"start" : le numéro du résultat à partir duquel la réponse du SolR s'affiche. Par défaut, l'affichage commence au résultat 0. Si, au moment de lancer l'API XML, vous vous trouviez sur la page 4 de la liste des résultats, l'affichage des données commencera au résultat 30.

ComplémentLe bloc "docs" qui donne, pour chaque thèse ou projet de thèse, les informations suivantes

"id" : identifiant interne de la thèse dans theses.fr

"dateInsert" : date de première publication de la page de thèse dans theses.fr.

"dateMaj" : date de dernière mise à jour des informations décrivant la thèse.

"status" : statut de la thèse (ex : « soutenue » pour les thèses soutenues, « enCours » pour les thèses en préparation).

"accessible" : oui si le document est diffusé sur le web ; non s'il ne l'est pas (pour les thèses en préparation, l'information sera toujours « non »).

"titre" : titre de la thèse.

"auteurPpn" : numéro de la notice d'autorité de l'auteur dans la base de données du Sudoc et dans IdRef. Il s'agit d'un identifiant unique composé de 9 caractères et attribué par les bibliothécaires de l'enseignement supérieur français. Pour les thèses en préparation, cette information sera vide.

"auteur" : prénom et nom de l'auteur

"etabSoutenance" : nom de l'établissement de soutenance

"etabSoutenancePpn" : numéro de la notice d'autorité de l'établissement de soutenance dans la base de données du Sudoc et dans IdRef. Il s'agit d'un identifiant unique composé de 9 caractères et attribué par les bibliothécaires de l'enseignement supérieur français.

"dateSoutenance" : date de soutenance (pour les thèses soutenues uniquement).

"sujDatePremiereInscription" : pour les thèses en cours de préparation, date de première inscription du doctorant en doctorat.

"discipline" : discipline de la thèse

"num" : numéro national de thèse, pour les thèses soutenues

"langueThese" : langues de la thèse, sous forme de liste.

"personne" : personnes liées à la thèse (auteur, directeur de thèse, membres du jury, etc), sous forme de liste indiquant d'abord la forme nom + prénom de l'identité des personnes, puis la forme prénom + nom.

"ppn" : liste des numéros de notices d'autorité, dans la base de données du Sudoc et dans IdRef, présents dans la description du document (auteur, directeurs de thèse, membres du jury, établissement de soutenance, école doctorale, partenaire de recherche, etc). Il s'agit d'identifiants uniques composés de 9 caractères et attribués par les bibliothécaires de l'enseignement supérieur français.

"oaiSetSpec" : codes du ou des domaines thématiques auxquels se rattache la thèse. Ces codes sont issus de la classification décimale Dewey et utilisés par la rrecommandation TEF (Thèses Electroniques Françaises).

"directeurThesePpn" : numéro de la notice d'autorité du directeur de thèse dans la base de données du Sudoc et dans IdRef. Il s'agit d'un identifiant unique composé de 9 caractères et attribué par les bibliothécaires de l'enseignement supérieur français.

"directeurTheseNP" : nom et prénom des directeurs de thèses, sous forme de liste

"directeurTheses" : prénom et nom des directeurs de thèses, sous forme de liste

"etablissement" : nom de l'établissement de soutenance et de l'établissement de cotutelle, sous forme de liste.

Cas des données décrivant les personnes

Ce fichier JSON obtenu contient les informations suivantes

ComplémentLe bloc "result" qui vous indique

"@numFound" : le nombre de résultats trouvés par le SolR

"@start" : le numéro du résultat à partir duquel la réponse du SolR s'affiche. Par défaut, l'affichage commence au résultat 0. Si, au moment de lancer l'API XML, vous vous trouviez sur la page 4 de la liste des résultats, l'affichage des données commencera au résultat 30.

ComplémentLe bloc "doc" qui donne pour chaque personne les informations suivantes

"personne" : prénom et nom de la personne

"personneNP" : nom et prénom de la personne

"ppn" : numéro de la notice d'autorité de la personne dans la base de données du Sudoc et dans IdRef. Il s'agit d'un identifiant unique composé de 9 caractères et attribué par les bibliothécaires de l'enseignement supérieur français. « null » indique que la personne n'a pas encore été identifiée et ne dispose donc pas encore d'un PPN.

"actif" : oui si la personne est en lien avec des thèses soutenues ou en préparation depuis moins de 5 ans ; non si la personne est en lien avec des thèses soutenues ou en préparation depuis plus de 5 ans.

►un sous-bloc "date" qui contient :

  • "dateInsert" : date de première publication de la page de la personne dans theses.fr.
  • "dateMaj" : date de dernière mise à jour des informations décrivant la personne.

"thesesEnTantQuAuteur" : nombre, identifiants et titres des thèses dont la personne a été auteur.

  • "nbTheses" : nombre de thèses dont la personne a été auteur.
  • "numThesesEnTantQueAuteur" : identifiants internes des thèses dont la personne a été auteur.
  • "titreThesesEnTantQueAuteur" : titres des thèses dont la personne a été auteur.

"thesesEnTantQueDirecteur" : nombre, identifiants et titres des thèses pour lesquelles la personne a été directrice de thèse.

  • "nbTheses" : nombre de thèses pour lesquelles la personne a été directrice de thèse.
  • "numThesesEnTantQueDirecteur" : identifiants internes des thèses pour lesquelles la personne a été directrice de thèse.
  • "titreThesesEnTantQueDirecteur" : titres des thèses pour lesquelles la personne a été directrice de thèse.

"thesesEnTantQueRapporteur" : nombre, identifiants et titres des thèses pour lesquelles la personne a été rapporteur.

  • "nbTheses" : nombre de thèses pour lesquelles la personne a été rapporteur.
  • "numThesesEnTantQueRapporteur" : identifiants internes des thèses pour lesquelles la personne a été rapporteur.
  • "titreThesesEnTantQueRapporteur" : titres des thèses pour lesquelles la personne a été rapporteur.