Annexes et données de la recherche
Accueil / Annexes et données de la recherche

Accueil

Annexes et données de la recherche

De quoi parle-t-on ?

Les données de la recherche sont les "enregistrements factuels (chiffres, textes, images et sons) utilisés comme sources principales pour la recherche scientifique et nécessaires à la validation de ses résultats" *. Elles revêtent des formes très diverses (iconographie, captations, données statistiques, entretiens, etc.). Elles peuvent être pleinement intégrées à la thèse (par exemple, dans le cas d'illustrations dans le fichier de la thèse) ou lui être seulement sous-jacentes (par exemple, dans le cas d'un corpus d'oeuvres littéraires étudiées et non reproduites dans la thèse). 
*Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics

Ces données servent en premier lieu à l'évaluation du travail de recherche lors de la soutenance. Mais leur partage et leur diffusion permettent une réutilisation par d'autres chercheurs, ouvrant la voie à de nouvelles investigations et constituant un gage de crédibilité et de qualité. Accessibles au grand public, elles démocratisent l'accès aux savoirs et permettent l'émergence des sciences participatives. L'ensemble du travail de recherche bénéficie ainsi d'une reconnaissance et d'une visibilité accrue, qui participe à la construction de l'identité numérique du chercheur.

Pour en savoir plus sur les données de la recherche dans la perspective de la Science ouverte et dans le cadre d'un projet de thèse, consultez le guide pratique à l'usage des doctorants

Suivant leur nature et leur forme, la gestion de ces données peut amener des questionnements juridiques et techniques.

Dans le cadre du doctorat, la rédaction d'un plan de gestion des données (vous trouverez ici un exemple de trame) n'est pas encore exigé, mais s'interroger sur les données collectées et traitées permet de faciliter leur gestion, d'anticiper leur diffusion et d'amorcer une réflexion épistémologique.

Une cellule au sein de la DiRVED peut vous accompagner dans le processus de gestion et de diffusion des données, contactez l'alias: donnees-recherche@sorbonne-nouvelle.fr , ainsi que notre équipe à sur l'alias theses-dbu@sorbonne-nouvelle.fr

Données personnelles

Il s'agit d'informations se rapportant à une personne physique identifiée ou identifiable. Ces données sont soumises à la Règlementation Générale sur la Protection des Données. On portera une attention particulière à ces données, en particulier si elles sont sensibles (informations sur l’origine raciale ou ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l'appartenance syndicale, données génétiques ou biométriques, données concernant la santé, la vie sexuelle ou l'orientation sexuelle d'une personne physique). 

Vous trouverez dans la documentation de l'ABES, des informations concernant le respect de cette règlementation dans le cadre de la rédaction d'une thèse  

Outre la conformité légale, une gestion responsable des données personnelles constitue une démarche éthique et déontologique.

Si vous traitez des données personnelles dans le cadre de votre thèse, il conviendra de contacter la Délégation à la Protection des Données de l'Université Sorbonne Nouvelle.

Différentes solutions peuvent être trouvées pour protéger la confidentialité des données personnelles tout en garantissant la diffusion de l’information à des fins de recherche. Vous pourrez :

  • demander l'autorisation des personnes concernées : voir la page du Comité d'Ethique de la Recherche, un formulaire de consentement libre et éclairé devra être signé par les participants
  • anonymiser totalement les données (retirer tout élément permettant l'identification de la personne, même de façon indirecte), ou à défaut les pseudonymiser ou les anonymiser imparfaitement (retirer tous les éléments d'identification directe des personnes, utiliser des pseudonymes, chiffrer les données avec une clé de cryptage, etc.). Pour en savoir plus, consultez la page dédiée sur le site de la CNIL. Des outils automatiques pour l'anonymisation, comme Amnesia, peuvent vous être utiles.

Tentez d'appliquer le principe "aussi ouvert que possible, aussi fermé que nécessaire" : anonymisez les données qui étayent votre propos pour les inclure dans la thèse, écartez celles qui n'apportent rien à la compréhension de la thèse ou que vous ne pouvez pas anonymiser.
Choisissez un mode de diffusion adéquat. N'hésitez pas à nous contacter par courriel à theses-dbu@sorbonne-nouvelle.fr si vous avez des doutes sur les modalités de diffusion. 

Documents sous droit d'auteur

Il convient de faire la différence entre le respect de l'intégrité scientifique et le respect de la propriété intellectuelle. L'intégrité scientifique doit impérativement être respectée, vous devez systématiquement citer clairement toutes vos sources. Pour gérer efficacement vos références bibliographiques, vous pouvez utiliser Zotero
Le respect de la propriété intellectuelle impose de d'obtenir des autorisations lorsqu'on reproduit une oeuvre de l'esprit. Sous forme de contrat écrit, ces autorisations sont similaires à des licences par lesquels les auteurs des oeuvres vous octroient des droits patrimoniaux. Elles doivent donc notamment préciser les conditions de réutilisation des oeuvres : étendue des droits cédés (le droit de reproduction pour la numérisation de l'oeuvre et le droit de représentation pour la diffusion sur internet), les modes d'exploitation envisagés (internet ou accès restreint), etc.
Des formations au respect du droit d'auteur et à l'utilisation de Zotero sont proposées par la DBU.

Des exceptions à cette règle : 

  • La citation courte : veillez à bien différencier vos citations du texte de votre thèse
  • Le domaine public : cas où l'auteur est décédé depuis plus de 70 ans (sauf exceptions, pour une durée plus longue)
  • L'exception pédagogique et de recherche : permet d'utiliser des oeuvres ou des extraits d'oeuvres, de façon limitée cependant
  • Les licences Creative Commons : par défaut, une oeuvre de l'esprit ne peut pas être reproduite sans autorisation. Les licences Creative Commons permettent aux auteurs de définir en amont les droits et les modalités de réutilisation relatifs aux oeuvres qu'ils produisent

Même si on observe une certaine tolérance dans le domaine de la recherche et de l'enseignement, négliger de demander des autorisations, et à plus forte raison, quand on est en contact direct avec des auteurs ou leurs ayants-droit ou qu'ils sont clairement identifiables, constitue un important manquement au respect de la propriété intellectuelle.
Par ailleurs, obtenir ces autorisations peut être utile dans une perspective de publication d'articles ou de la version remaniée de la thèse, il convient alors de prévoir ce type de réutilisations dans les autorisations demandées aux auteurs.

II convient là aussi de choisir des modalités de diffusion pertinentes lors du dépôt. Toujours en appliquant le principe "aussi ouvert que possible, aussi fermé que nécessaire", il est par exemple possible de transmettre deux versions de la thèse : choisir une diffusion mixte, remettre une "version aménagée de diffusion" permet de déposer une version complète qui sera diffusée en accès restreint et une version incomplète qui sera diffusée sur internet (et excluant les documents sous droits). Voir : Cas particulier de diffusion : Diffusion mixte - version aménagée de diffusion.

Secret administratif, industriel et commercial - Informations classées

Suivant le type de données et les décisions prises en concertation avec l'entreprise concernée (dans le cas d'un contrat CIFRE, par exemple), ou dans le cas de données sensibles ou relevant du secret-défense, il faudra envisager les modes de diffusion appropriés, voire exclure les documents ne pouvant être diffusés. Le code du patrimoine fixe à 25 ans maximum la durée de protection des données industrielles et commerciales.

Contactez notre service sur theses-dbu@sorbonne-nouvelle.fr pour toute information à ce sujet.

Questions techniques - cycle de vie de la donnée et dépôt à la bibliothèque

Il convient, dès le début du cycle de vie de la donnée, c'est-à-dire dès sa collecte, d'envisager les questions techniques liées à l'archivage et à la diffusion. A chaque étape, pensez à documenter vos données, afin que votre recherche soit reproductible.
Les contraintes liées au dépôt légal ne doivent pas être dissociées de cette réflexion. N'hésitez pas à nous contacter sur theses-dbu@sorbonne-nouvelle.fr pour des précisions !

Collecte

Si vous le pouvez, privilégiez dès la collecte des formats éligibles à l'archivage au CINES (signalés avec une coche bleue dans la colonne "archivable dans PAC"), ou à défaut des formats connus et ouverts, dont la conversion vers des formats compatibles CINES est simple et n'altère pas les données (sauf si vous estimez, lors de votre réflexion sur ces données, que ces fichiers n'auront pas à être archivés) ou largement utilisés dans votre discipline.
Commencez à documenter vos données dès leur collecte (indiquez la provenance et les circonstances de leur collecte).

Traitement

Vous trouverez sur cette page, les outils conseillés pour le traitement des données textuelles.

Pensez à nommer correctement vos fichiers : évitez les espaces (utilisez l'underscore _) et les caractères spéciaux. N'hésitez pas à inclure des dates et à versionner vos fichiers. Les noms doivent être parlants pour vos futurs lecteurs et cohérents avec votre thèse. Si vous utilisez une convention de nommage, n'hésitez pas à l'expliciter dans votre thèse ou dans un fichier spécifique. Pour renommer de nombreux fichiers, vous pouvez utiliser des outils comme Ant Renamer qui permet de renommer rapidement et simplement des fichiers. 
Organisez également l'arborescence de vos dossiers et documentez là également: voir dans la section dédiée.

Vous pouvez aussi rassembler les informations disponibles se référant à chaque fichier (date, couverture géographique, auteur, numéro d'ordre, mots-clés, etc.) ou se référant à un ensemble de fichiers (quel traitement avez-vous apporté à vos données, en avez-vous conservé certaines et exclu d'autres, comment les interpréter et les utiliser), dans des fichiers de métadonnées ou directement dans votre thèse si cela est pertinent.

Veillez aussi à la sécurité informatique de vos fichiers pendant la thèse : faites des copies sur d'autres supports que votre PC, privilégiez les sauvegardes automatiques sur serveur. Vous pouvez par exemple utiliser Sharedocs, un des services proposés par HumaNum.

Archivage et diffusion

Outre la thèse, au format PDF, le CINES (Centre informatique national de l'enseignement supérieur) permet l'archivage à long terme (30 ans et plus) de la plupart des fichiers électroniques. Certains formats ne sont pas acceptés par le CINES (croix rouge dans le tableau disponible ici) ne passent pas le test FACILE (croix rouge lors du test d'éligibilité à l'archivage) ou sont en nombre trop important (plus de 30 annexes, il n'y a par contre pas de volume maximal). N'hésitez pas à contacter notre service en amont pour trouver des solutions adaptées à votre thèse.

Les principales orientations proposées sont les suivantes : 

1. l'ensemble de la thèse (thèse + données de la recherche) est archivée et diffusée grâce aux outils proposés par l'ABES (la thèse sera disponible à partir de theses.fr pour la diffusion, et sera archivée au CINES). En faisant coexister plusieurs versions de la thèse, il est possible de moduler : 

  • L'archivage : une version d'archivage pérenne spécifique, passant le test FACILE, est archivée au CINES, tandis que la version remise au jury est diffusée. Cela peut s'avérer utile, par exemple, pour des tableaux Excel qui peuvent être archivés au format PDF ou CSV au CINES et diffusés au format Excel. La version d'archivage n'est habituellement pas diffusée. Le contenu intellectuel des deux versions est identique (à l'exception des éléments n'ayant pu être conservés lors du reformatage). Voir la rubrique Cas particulier de diffusion : Version d’archivage pérenne spécifique

2. la thèse est diffusée grâce aux outils proposés par l'ABES, mais les données de la recherche sont diffusées sur un entrepôt de données. Un lien ou, mieux, un DOI (Digital Object Identifier) est obtenu suite au dépôt sur l'entrepôt. Ce lien peut figurer dans la thèse et dans le résumé de la thèse sur theses.fr ainsi que sur HAL-Theses si la thèse est diffusée sur internet (à noter : il n'existe actuellement pas de champ dédié à ce lien sur theses.fr, mais cela fait partie des évolutions envisagées par l'ABES). Le doctorant dépose lui-même ses données sur l'entrepôt, et communique le lien au service d'appui documentaire à la recherche (merci de nous contacter en amont du dépôt).

Nombre des fichiers

Le nombre de fichiers qu'il est possible de diffuser grâce aux outils proposés par l'ABES est limité à une trentaine. Si le nombre des fichiers à déposer dépasse cette limite, il est préférable de privilégier un entrepôt de données, ou de fusionner les fichiers concernés, si cela est possible et ne nuit pas à leur compréhension.

Arborescence des dossiers

Attention : si les fichiers sont destinés à une diffusion large et à un archivage dans le cadre des outils proposés par l'ABES, l'arborescence des dossiers ne sera pas conservée. Il conviendra donc soit de reprendre le nommage des dossiers dans le nommage des fichiers (à noter : ils ne seront pas forcément classés par ordre alphabétique), soit de privilégier un entrepôt de données (en s'assurant bien-sûr que le dépôt d'une arborescence de dossiers est possible et qu'il n'est pas nécessaire d'effectuer de multiples dépôts).

Images

Même si les formats d'image sont acceptés au CINES, il est souvent plus pratique d'insérer ces images dans le fichier PDF de la thèse (ou un fichier PDF d'annexes), le nombre d'image excédant souvent la limite imposée par le CINES. 

Audio et vidéo

Les formats MP3 n'étant pas acceptés par le CINES, ils doivent être convertis au format MP4 AAC. Certains formats peuvent être convertis grâce au logiciel VLC Media Player.

Applications

Les applications ne sont pas éligibles à l'archivage CINES. Vous pouvez les déposer sur Software Heritage.

XML

Les schémas XSD n'étant pas éligibles à l'archivage, il est généralement préférable de privilégier un dépôt sur un entrepôt de données.

PDF

Les annexes au format PDF doivent porter la chaîne de caractères "_annexes" (au pluriel) en fin de nom de fichier, afin d'être différenciées de la thèse lors du dépôt légal.

Choix de l'entrepôt de données

En fonction de vos besoins et des pratiques dans votre discipline, vous pouvez choisir un entrepôt :

  • disciplinaire : ORTOLANG (sciences du langage), Nakala (Sciences humaines), etc. Nous vous recommandons de choisir l'entrepôt qui est généralement utilisé dans votre discipline.
  • généraliste : Zenodo, Figshare
  • national : Recherche.data.gouv
  • spécifique à un type de données : Software Heritage pour les applications, etc.

Lors du dépôt sur l'entrepôt, pensez à déposer la documentation que vous aurez précédemment rédigée et les éventuelles restrictions à la réutilisation des données. Un lien vers la thèse sur theses.fr ou HAL-Theses pourra également être ajouté à la notice des données sur l'entrepôt (contactez theses-dbu@sorbonne-nouvelle.fr à ce sujet).
Votre documentation et la réflexion sur la gestion des données accompagnant votre thèse peut également faire l'objet d'un data paper, qui pourra être intégré à la thèse ou être publié dans un data journal.

Une fois le dépôt sur l'entrepôt effectué, un DOI (Digital Object Identifier) ou un Handle vous sera généralement fourni par l'entrepôt. Sous forme de lien, ils fournissent un accès pérenne à vos données. Vous pourrez donc les utiliser pour le référencement de vos données lors de vos diverses publications (articles, C.V., etc.).


Doublement référencées, votre thèse et vos données bénéficieront d'une visibilité maximale !