Traiter

Il s’agit de traiter les données brutes en les qualifiant, les organisant, les structurant, afin de répondre au mieux aux questions scientifiques posées.

  • S’assurer de la fiabilité / qualité des données (exemple : étalonnage des instruments, homogénéiser des données de sources diverses...) en qualifiant les éventuelles incertitudes (niveau de confiance dans la donnée), l’exhaustivité, la récence des données, etc... Vérifier, valider et curer les données, à travers diverses méthodes qualités (exemple : la maîtrise des 5M) et outils (exemple : OpenRefine), des scripts R ou Python (voir Gitlab LRU). Cette étape est primordiale pour assurer la qualité des résultats scientifiques et la confiance dans la ré-utilisation des données.
  • Organiser les données pour faciliter leurs analyses : arborescence, nommage des fichiers (exemples : Folder structure template, Comment organiser et nommer ses données ?, schéma GOAL of good data management). En fonction des besoins, les structurer en bases de données, s’appuyer sur des référentiels existants, d’autres bases de données, etc...
  • Attention à toujours privilégier les format ouverts (tester l’outil Facile du CINES) pour les fichiers ou documents (pendant et après le projet en vue d’une réutilisation des données)
  • Réutiliser des données, voir les conditions de réutilisation (ex : accord de consortium)
  • Choix de la sémantique. Pour standardiser le nommage des variables, il existe plusieurs conventions. Pour les domaines liés au climat, l’atmosphère et l’océan, la Convention Climat and Forecast donne des recommandations et permet ainsi de standardiser les métadonnées embarquées dans les entêtes des fichiers NetCDF. Pour le Système Terre, l’utilisation du catalogue EarthPortal est aussi fortement recommandé.
  • Conserver et documenter les workflows utilisés pour traiter les données.
publie le jeudi 13 février 2025