|
|
|
|
|
|
Uniformisation des formats (unités, métadonnées) :
Afin de normaliser les fichiers pour réduire les efforts requis à leur utilisation. Le format utilisé par DRIAS, c’est-à-dire la structure du fichier plus un nombre suffisant de métadonnées renseignées, suit la norme CMOR (Climate Model Output Rewrit) imposée dans les projets de modélisation internationaux
Nom du fichier
Le nom de fichier est composé d’arguments décrivant la simulation et le projet : VariableAdjust_Domain_GCM-Institute-Model_RCM-Institute-Model_Experiment_ BcInstitute_BcMethod_BcOBS_TimeFrequency_Startyear-Endyear.nc
Métadonnées
Les métadonnées renseignent sur la réalisation de la simulation. Les attributs des coordonnées spécifient la grille, le calendrier et les unités à partir desquels la variable est définie. Enfin les attributs de la variable permettent de préciser son format, la méthode d’extraction de la valeur et la valeur des données manquantes. Les attributs globaux sont souvent récupérés des fichiers sources. Ils renseignent sur la réalisation de la simulation, s’il s’agit d’une descente d’échelle dynamique ils contiennent les informations sur le forçage aux conditions aux limites (GCM) qui sont essentielles à la traçabilité. D’ailleurs dans le cadre de CORDEX-Adjust, il est demandé de recopier sans modifier les entrées CORDEX. Les informations concernant la correction de biais (méthode, institut, date de mise en œuvre, référence) sont maintenant enseignées dans des attributs spécifiques via le préfixe "bc_" pour "bias correction ».
Nom variable et unités
Les unités et dimensions s’accordent à ce qui est requis par les tables MIP (model intercomparaison project).
Uniformisation des calendriers :
Les différents GCMs utilisent des calendriers différents. La plupart ont un calendrier "standard grégorien" avec 365 jours par an pour les années non bissextiles, et 366 jours par an pour les années bissextiles. Mais certains GCMs utilisent un calendrier dit "non bissextile", qui ont que d’année de 365 jours. Il y a aussi le GCM HadGEM, qui utilise un calendrier "360_jour" où chaque année compte 360 jours (12 mois de 30 jours). Le fait d'avoir des calendriers différents, et même des années différentes, rend l'utilisation des données climatiques beaucoup plus difficile dans les études d'impact multi-modèles. Par conséquent, nous avons choisi lors du processus de correction de biais par la méthode ADAMONT, d’uniformiser toutes les simulations pour les mettre sur un calendrier standard grégorien.
Cela a été réalisé sur les données brutes et donc quotidiennes des RCM en entrée de la chaîne ADAMONT (avant correction) par une simple interpolation pour les jours bissextiles. C'est-à-dire que pour produire un jour bissextile dans un modèle avec un calendrier "non bissextile", les données pour le jour du 29 février ont été créées en faisant la moyenne des données trouvées le 28 février et le 1er mars. Cela signifie que pour la plupart des modèles, 1 jour sur 4 ans est le résultat de l'interpolation, ce qui est une occurrence raisonnablement faible de jours interpolés. Ces données sont ensuite corrigées par la méthode quantile-quantile et désagrégé en données horaires et sont donc déjà au format « calendrier bissextile ».
Toutefois certains RCMs ont déjà procédé à la correction du calendrier de leur GCM forçeur pour le caler sur un calendrier standard (grégorien). Mais la méthode de correction ADAMONT s’appuyant sur les champs de géopotentiel z500 des GCMs pour la classification des régimes de temps, il est donc nécessaire d’appliquer la même correction que celle faite les RCMs. Cela concerne les simulations NorESM/REMO2015 et IPSL-CM5A/WRF381P qui ont dupliqué le fichier des régimes de temps du 28 février pour le régime du 29 février (car on ne peut pas moyenner des numéros de régimes).
Les modèles globaux HadGEM2-ES n'ayant que 360 jours/an, nécessitent une interpolation beaucoup plus conséquente pour figurer sur un calendrier standard. L'approche adoptée pour remplir les jours manquants afin d'établir un calendrier standard, a consisté à interpoler un jour tous les 72 jours (soit 5 fois par an), en y appliquant la moyenne des valeurs du J-1 et J+1, pour être le nouveau jour interpolé. En étalant l'incidence des jours interpolés, les chances qu'ils soient discernables dans les statistiques du cycle annuel sont réduites. De plus, le premier jour interpolé n'est pas le premier janvier pour éviter les regroupements (avec le 31 décembre de l'année précédente par exemple), mais commence 36 jours après donc en février. Ensuite, pour les années bissextiles, le 29/2 est reconstitué en faisant la moyenne classique entre les champs du 28/2 et du 1/3, comme on l'a vu précédemment.
Toutefois, toutes les projections climatiques futures avec le GCM HadGEM2-ES se terminent en 2099 et la totalité du mois de décembre 2099 est manquante pour le RCP4.5 (non fourni par le producteur). Le mois de décembre 2099 a été rempli avec le mois de décembre de l'année précédente. Mais aucun traitement n’a été réalisé pour l’année 2100 car aucune solution raisonnable n’a été trouvée pour compléter statistiquement ces données.
Figure 1 : Calendriers des modèles climatiques de la sélection DRIAS-2020.
Masque terre / mer :
La descente d’échelle suppose une différence dans la résolution de la topographie. Ainsi le passage d’un maillage de 12 km des modèles climatiques régionaux à un maillage de 8 km de la réanalyse SAFRAN, pose le problème du contraste dans la topographie résolue, notamment concernant la représentation du contour des côtes et des îles ou des eaux intérieures, par exemple rivières, lacs, etc…
Les modèles numériques utilisent un masque pour représenter la répartition terre-mer en chaque point de grille. Il s’agit d’un champ statique de valeurs comprises entre 0 (la maille est entièrement recouverte d'eau) et 1 (la maille est entièrement recouverte de terre). Pour certains modèles, cela correspond à un choix binaire d'affectation, pour d'autres c’est une fraction de terre dans chaque maille de la grille. Dans ce dernier cas, une maille est considérée comme terre si plus de 80 % de sa surface est constituée de terre, sinon elle est considérée comme mer (ou eau intérieure).
Ceci implique un contrôle particulier lors de la correspondance des points de grille du modèle avec le point le plus proche de la réanalyse SAFRAN méthode choisie pour la descente d’échelle statistique dans la méthode de correction de biais ADAMONT. En effet la donnée climatique simulée pour une maille océanique ne peut correspondre à une maille terrestre, car cela fausserait l’information par notamment un réchauffement plus faible. Ainsi le point du RCM choisi pour un point de grille SAFRAN donné, est un point dont le masque est supérieur ou égal à 80%. Si le point le plus proche ne remplit pas cette condition, on passe au point le plus proche suivant. Et ainsi de suite jusqu'à trouver un point remplissant la condition.
Gestion des données aberrantes :
La détection des valeurs aberrantes est une étape importante pour limiter les incohérences. Une valeur de précipitations est considérée comme aberrante si celle-ci dépasse 5 fois la valeur maximale de référence (SAFRAN). Cela concerne principalement les simulations basées sur les GCM NorESM, HadGEM et dans une moindre mesure MPI-ESM. Dans le cas où une valeur est identifiée comme aberrante, il lui est attribué la valeur du seuil dépassé, afin de conserver au mieux le taux relatif de pluie. Ce filtre est appliqué au niveau horaire sur les précipitations liquides et la neige séparément.
Pour les températures, le filtre consiste à en écrêter simplement les températures horaires supérieures à 58°C.
Ces valeurs ont été définies par les producteurs des simulations climatiques.
Correction multi-variée :
La méthode de correction de biais ADAMONT inclus une désagrégation horaire qui permet de réintroduire la cohérence entre Tmin et Tmax (i.e. Tmax > Tmin).
Comme pour les données d’enneigement où les précipitations sont classées en « neige » si la valeur de la température horaire est inférieure à 1°C.
Le jeu de données DRIAS-2020 a d'ailleurs été intégré dans l'étude de DUNN R. et al., 2021 sur l'évaluation de la maturité des jeux de données à des fins nationale et régionale. L'évaluation portant sur deux catégories (gestion opérationnelle des données et gérance des données), attribut un niveau entre 1 et 3, du plus faible au plus élevé.
Pour le service climatique DRIAS et le jeu DRIAS-2020 :
- Les aspects relatifs à la gestion des données (accès, portabilité, préservation, documentation) sont évalués au niveau 3 ('Highest').
- La qualité et l'utilisation est évalué à 2.5. La qualité des données est évaluée même si aucune documentation spécifique sur cet aspect n'est disponible, le rapport national "Le climat de la France au XXIe siècle" basé sur les données et les produits de DRIAS, démontre sa grande notoriété.
De plus, la gouvernance du portail DRIAS est en multi-partenarial entre la Direction de la Climatologie de Météo-France (coordination et mise en œuvre des services) et les principaux organismes français impliqués dans la modélisation climatique : IPSL, CERFACS, CNRM-GAME, qui apportent leur expertise scientifique sur l'utilisation des outils et l'interprétation des résultats. L'assistance aux utilisateurs est également assurée, et les aspects liés aux métadonnées sont de niveau 2 pour les données ASCII et de niveau 3 pour les données NetCDF suivant la norme CMOR.
Data Science Journal , accessible ici : https://datascience.codata.org/articles/10.5334/dsj-2021-007/