Carte 2016 au format vecteur

OSO 2016 vectoriel

Nous vous annonçons la disponibilité de la carte 2016 au format vecteur. Il s'agit d'un produit avec une unité minimale de collecte de 0.1 ha dérivé du raster à 20 m avec une procédure de régularisation et simplification des polygones obtenus.

Afin de préserver au maximum l'information du produit raster, chaque polygone est caractérisé par un ensemble d'attributs :

  • La classe majoritaire, avec la même nomenclature du produit raster.
  • Le nombre moyen d'images sans nuages utilisées pour la classification ainsi que l'écart-type. Ces attributs sont nommés validmean et validstd.
  • La confiance du classifieur (valeur entre 0 et 100).
  • Le pourcentage de la surface couverte par chaque classe de la nomenclature. Ce pourcentage est calculé sur le raster à 10 m, même si les polygones simplifiés sont dérivés du raster à 20 m.
  • L'aire du polygone.

Nous avons découpé le produit selon les limites administratives des départements et généré une archive au format zip contenant les 4 fichiers qui composent le format "ESRI Shapefile". Les donnés peuvent être télé-chargées à partir d'URL du type :

http://osr-cesbio.ups-tlse.fr/echangeswww/TheiaOSO/vecteurs_2016/departement_XX.zip

où XX correspond au numéro du département (09, 31, par exemple, et 2a et 2b pour la Corse).

La liste complète des produits est ici. Un fichier de style QGis est aussi disponible pour l'affichage.

Délais de production

Le délai pour la disponibilité du produit vectorisé est dû à des difficultés de passage à l'échelle de l'algorithme de simplification et de régularisation des polygones. Donatien, Vincent et Arthur ont travaillé d'arrache-pied pendant des semaines pour résoudre des problèmes informatiques et algorithmiques assez complexes.

La bonne nouvelle est que, maintenant, la chaîne de vectorisation est opérationnelle et que le traitement complet peut être fait en quelques jours, ce qui nous permettra de livrer de façon simultanée les versions raster et vecteur de la carte lors des prochains millésimes.

Cohérence entre raster et vecteur

La conversion au format vectoriel de la couche raster initiale d'occupation du sol nous a obligé à faire certains choix techniques. En effet, afin d'assurer une bonne utilisation de cette donnée par le plus grand nombre d'entre vous, nous avons choisi d'utiliser le format vectoriel utilisé par le plus grand nombre d'utilisateurs (contraintes réglementaires), à savoir le format "ESRI Shapefile". Si ce format est standard, il a l'inconvénient majeur d'être limité 2 Go, à la différence du format sqlite par exemple.

Or, la couche raster d'origine contient plus de 10 milliards de pixels. Même si le produit ré-échantillonné à 20 m est utilisé pour la conversion (plus que 2,8 milliards de pixels), le fichier vectoriel généré dépasse largement cette limite de 2 Go. Il a donc été nécessaire de produire un fichier vectoriel par département. Ce découpage vectoriel a un inconvénient majeur, il génère des petits polygones (surface inférieure à l'unité minimale de collecte) en bordure de département. Ces polygones ont ainsi été agrégés au polygone voisin partageant la plus grande frontière. Cette opération limite la conformité avec les produits raster originaux (10 et 20 m).

Une autre limite de ce produit concerne le calcul de la part des occupations du sol originales (produit raster à 10 m avant régularisation et simplification). Pour certains polygones de petite superficie et de forme allongée, le calcul de ces statistiques n'est pas possible car le polygone ne recouvre aucun centroïde de pixel, base de calcul de ces statistiques. Ces polygones possèdent donc uniquement l'information d'occupation du sol.

Carte d'occupation des sols 2016 à 20 m

Le produit raster à 20 m de résolution, qui résulte d'un filtrage majoritaire et un sous-échantillonnage est maintenant disponible. Vous pouvez le visualiser en utilisant l'interface de visualisation. Vous pourrez comparer avec le produit à 10 m et nous faire parvenir vos impressions.

La validation statistique montre une légère amélioration des performances globales de la carte à 20 m par rapport à celle à 10 m, mais on constate une forte baisse de qualité sur 2 classes : glaciers et neiges éternelles et plages et dunes. Ceci est dû au fait que ces classes sont constituées de petites zones, éventuellement avec des contours très irréguliers, et sont donc trop régularisées par les traitements de simplification.

Les fichier raster au format Geotiff est aussi disponible pour le télé-chargement : occupation des sols à 20 m (220 Mo).

Carte d'occupation des sols 2016 avec la Corse

La carte d'occupation des sols incluant la Corse vient d'être mise à disposition. Vous pouvez la visualiser en utilisant l'interface de visualisation.

Les fichiers raster au format Geotiff sont aussi disponibles pour le télé-chargement :

Nous vous mettrons bientôt à disposition les cartes régularisées avec des pixels de 20 m (au lieu de 10 m pour la version actuelle). Les produits vectorisés au format ESRI Shapefile suivront un peu plus tard.

Carte d'occupation des sols 2016

La carte d'occupation des sols 2016 est là

Poster_OSO_V4.png

Une fois n'est pas coutume, nous sommes en avance. Enfin, presque. Nous avions promis une carte d'occupation des sols 2016 de la France métropolitaine avant la fin du premier trimestre 2017. Elle existe et est disponible ici. Il s'agit d'une carte à 10 m de résolution, avec la même nomenclature que celle utilisée pour les derniers produits prototypes Landsat à 17 classes.

La carte est principalement basée sur des données Sentinel-2 allant de fin 2015 à fin 2016, mais nous avons aussi utilisé des données Landsat-8. Nous vous donnons les détails de la procédure de production plus bas.

En termes de qualité, les statistiques indiquent quelque chose d'assez similaire à ce que nous obtenions avec Landsat-8. Les améliorations apportées par Sentinel-2 ne sont pas négligeables (il suffit de regarder la carte), mais elles ne sont pas visibles sur les statistiques globales à tout le territoire.

Nous allons bientôt ajouter la Corse. Le produit régularisé à 20 m ainsi que les couches vecteur seront mises à disposition dans les semaines à venir. Pensez d'ailleurs à nous donner votre avis en répondant à l'enquête en ligne disponible ici.

Interface de visualisation

La classification est affichée sur un fond d'imagerie à très haute résolution. On peut jouer sur l'opacité (curseur sous l'image). Si vous cliquez sur un pixel, le nom de la classe s'affiche.

En haut à droite de l'interface de visualisation vous trouverez un bouton qui vous permet d'afficher 2 couches supplémentaires :

  • Validité : c'est le nombre de dates valides (pas de nuage, pas d'ombre) utilisées pour reconnaître la classe de chaque pixel. Vous verrez qu'il y a des fortes différences entre les zones à cause du recouvrement des traces au sol du satellite, et bien entendu, à cause de la météo.
  • Confiance : c'est la probabilité de la classe choisie pour chaque pixel. L'algorithme de classification fait un vote majoritaire à partir de 100 classifieurs individuels. La confiance est le pourcentage de classifieurs qui ont voté pour la classe majoritaire. Avec 17 classes, cette probabilité pourrait être inférieure à 6%, mais globalement, elle est bien supérieure à 40%. On remarque que la confiance est plus faible dans l'Ouest, le pourtour méditerranéen et sur les grandes villes. Inversement, elle est élevée sur les grandes cultures du centre et sur les forêts (on reconnaît la forêt des Landes sur la carte de confiance).

Sous l'affichage de l'image, on retrouve les statistiques de validation. D'abord,il y a les pourcentages globaux :

  • OA: Overall Accuracy ou précision globale qui donne le pourcentage de pixels bien classés
  • Kappa: indice statistique similaire à l'OA, mais corrigé à la baisse pour prendre en compte qu'une classification aléatoire aurait aussi des pixels bien classés.

Pour chaque classe on affiche aussi le FScore, une métrique dont l'optimum est à 1 et qui combine sur-détection et sous-détection.

Comme les classes de surfaces artificialisées sont très confondues entre elles, nous avons ajouté le FScore des 4 classes réunies. Pour ce qui concerne les cultures annuelles (été et hiver), la procédure de classification (décrite ci-dessous) ne nous permet pas de valider avec le même jeu de données que pour le reste des classes. Nous fournissons donc le FScore avec les 2 classes réunies, mais aussi mesuré avec les classes séparées en utilisant un jeu de données restreint.

Téléchargement des fichiers

Pour télécharger les fichiers raster au format Geotiff, vous pouvez utiliser les liens suivants :

La procédure de production

Pour cette première production "officielle", nous avons rencontré un certain nombre de difficultés (de disponibilité de données, de ressources informatiques, de comportements algorithmiques inattendus) qui nous ont demandé beaucoup de travail et de recherche de solutions mobilisant des compétences très variées.

L'utilisation de Landsat-8

Nous avions prévu d'utiliser de façon conjointe les séries Landsat-8 et Sentinel-2 pour avoir une caractérisation très fine des évolutions temporelles des surfaces observées. Malheureusement, nous avons été confrontés à des différences de calage géométrique et, surtout, à des problèmes de perte de définition liées à la différence de résolution entre Landsat (30 m) et Sentinel-2 (10 et 20 m en fonction des bandes).

Nous avons dû faire un choix entre quantité de données et précision géométrique. Etant donné que les résultats obtenus avec Sentinel-2 seul sont satisfaisants, nous avons décidé de ne pas utiliser les données Landsat-8 comme prévu. Elles ont tout de même été utilisées pour résoudre un autre problème décrit ci-dessous.

CropMix

CropMix est le petit nom donné par Arthur et Vincent à la technique mise en oeuvre dans iota2 pour faire de la classification des cultures annuelles sans donnée de référence pour l'année en cours. L'approche a été d'abord prototypée pendant le stage de fin d'études de Dawa Derksen.

Pour les produits prototypes nous utilisions le Registre Parcellaire Graphique (RPG) qui nous fournit un grand nombre d'échantillons d'apprentissage. L'inconvénient du RPG est qu'il est disponible trop tard pour la mise à jour annuelle de la carte d'occupation des sols. A titre d'exemple, nous ne disposons pas à ce jour de la version 2015. Donc pour la carte 2016, nous ne pouvions pas compter sur le RPG et la dernière version disponible est celle de 2014. Mais une donnée, même de 2015, n'aurait pas été utile, car une parcelle de culture d'été (tournesol, par exemple) en 2015, pourrait bien être une culture d'hiver (blé, par exemple) en 2016.

Nous avons donc été obligés de développer une technique (adaptation de domaine dans le jargon de l'apprentissage automatique) pour utiliser le RPG 2014. Une difficulté supplémentaire s'ajoute au problème, car en 2014 il n'y avait pas d'image Sentinel-2, car le satellite n'était pas encore lancé. Nous avons donc utilisé des images Landsat-8 de 2014 pour transférer l'apprentissage sur des images Landsat-8 de 2016, puis nous avons fait une nouvelle opération de transfert pour pouvoir utiliser cet apprentissage sur des données Sentinel-2 de 2016.

Il reste encore le problème de la validation de ce résultat, car le RPG était aussi utilisé pour valider nos classifications. Pour cette tâche, nous avons pu compter sur la présence de données de référence qui, si elles n'étaient pas en quantité suffisante pour l'apprentissage, permettent tout du moins de faire une validation indépendante. Ce sont ces statistiques qui accompagnent la carte publiée. Vous verrez que les résultats sont tout à fait acceptables.

La Corse

Pour des questions purement pratiques (découpage des tuiles et des régions climatiques), nous n'avions pas travaillé sur la Corse lors de la production des cartes prototypes. Nous avons donc traité cette zone pour la première fois très récemment et, comme il fallait s'y attendre, nous avons eu des surprises liées à la faible présence de surfaces bâties et de grandes cultures. Ceci nous a demandé de modifier légèrement la stratégie d'échantillonnage utilisée dans la phase d'apprentissage de la chaîne iota2. Malgré tout, le résultat sur la Corse est tout à fait similaire à celui du reste du territoire cartographié. La carte sera disponible dans quelques jours seulement. Le point positif est que nous avons pu valider encore une fois la facilité d'adaptation de l'approche utilisée lors de l'application à de nouvelles zones.

Remerciements

Même si le travail n'est pas encore fini (on vous doit encore des produits et de toute façon nous allons continuer à améliorer la carte et les algorithmes), il est bon de ne pas oublier que ce GeoTiff que nous avons déposé sur un serveur ne serait pas là sans le travail de beaucoup de personnes.

Il faut évidemment remercier Arthur Vincent, CDD au CESBIO, qui travaille sur iota2 depuis septembre 2015. C'est lui presque tout seul qui a construit la chaîne de traitement qui permet de traiter des dizaines de téra-octets de données avec une seule ligne de commande. Mais Arthur n'est pas non plus parti de rien, puisque avant lui, Benjamin Tardy d'abord et Marcela Arias ensuite, ont mis en place la première chaîne automatique pour faire des cartes d'occupation des sols sur de grandes étendues au CESBIO. Marcela a notamment fait un grand travail de validation et de production des premiers prototypes diffusés. Toujours sur la validation et la production, David Morin nous a bien aidé pendant quelques mois en 2016, et depuis septembre, c'est Vincent Thierion qui entre autres tâches a aussi bien pris en main cette activité, et ce, malgré les accidents au ski …

iota2 est une belle réussite, mais elle n'existe que grâce à des logiciels libres de très bonne qualité qui nous permettent de traiter des images satellites comme si c'était quelque chose de facile. Donc chapeau à l'équipe de développement de l'OTB qui depuis quelques années prend en compte nos demandes de fonctionnalités et qui, avec une réactivité impressionnante, nous fournit des perles logicielles qui nous facilitent la vie. Merci donc à Julien, Guillaume, Manuel, Rashad, et plein d'autres que je n'oublie pas.

iota2 commence à être utilisée en dehors du CESBIO (eh, oui, c'est du logiciel libre). Les retours de ces utilisateurs, mais aussi nos collègues du CESBIO qui s'en servent (Claire Marais-Sicre, Camille Truche) nous aident aussi à améliorer les choses. Et si iota2 marche bien c'est aussi parce que nous utilisons des images en entrée qui sont de très bonne qualité. Cette qualité est atteinte par des traitements développés au CESBIO par Olivier Hagolle et Mireille Huc, industrialisés par le CNES et CS-SI dans la chaîne MACCS et intégrés dans le centre de traitement MUSCATE du CNES qui fait la production opérationnelle pour Theia. Un grand merci aux équipes de développement et d'exploitation du CNES qui ont souffert pour nous offrir ces premières productions.

Et encore au CESBIO, il y a des collègues qui nous ont beaucoup aidé dans la localisation et récupération de bases de données (Jean-François Dejoux principalement), dans la mise en place de l'interface de diffusion des produits (Michel Le Page, Philippe Chibaudel, Laurent Drapeau), dans la fourniture de données terrain pour des validations ponctuelles (Claire Marais-Sicre, Camille Truche).

Les collègues de Dynafor (Donatien Dallery, David Sheeren, Mathieu Fauvel) ont travaillé avec Vincent Thierion sur la partie de post-traitement qui va nous permettre de vous fournir des produits vecteurs de très bonne qualité.

Il faut aussi rendre hommage aux équipes la DSI du CNES qui nous aident depuis plus d'un an à améliorer les performances de iota2 sur le cluster HPC du CNES.

Le travail que nous faisons s'inscrit dans le Centre d'Expertise Scientifique sur l'Occupation des Sols (opérationnelle) du Pôle Theia. Il est clair que notre travail aurait manqué de visibilité et de cadre sans l'existence de Theia et du label associé. Il faut aussi souligner que la plupart des ressources financières, y compris le CDD d'Arthur Vincent, viennent du programme TOSCA du CNES.

Et pour finir, soulignons que ce travail est fait pour produire des cartes qui seront utiles. Nous avons travaillé avec des utilisateurs externes depuis presque le début en recueillant leurs besoins, en leur proposant des produits prototypes et en écoutant leurs critiques toujours constructives. Ces interactions sont précieuses pour nous et nous espérons qu'elles vont se poursuivre pour que les produits continuent à s'améliorer.

Atelier Méthodes pour l'Occupation des Sols Opérationnelle - Compte rendu

Introduction

Le CES OSO a organisé les 24 et 25 novembre 2016 au CESBIO un atelier sur les méthodes de traitements d'imagerie satellitaire pour la production automatique de cartes d'occupation des sols. L'objectif était de faire un point sur les principales difficultés dans un contexte de production opérationnelle ou à grande échelle et de mettre en face des idées, voire des résultats prometteurs. Les thèmes proposés étaient :

  • gestion des zones très nuageuses où le sol est visible 1 à 2 fois par an en optique;
  • prise en compte des erreurs dans les données de référence pour les apprentissages supervisés;
  • prise en compte de la variabilité intra-classe sur des grandes étendues;
  • absence d'échantillons (en quantité suffisante) pour certaines classes de la nomenclature;
  • utilisation conjointe de sources de données images de résolutions différentes (mise en correspondance, résolution de travail, etc.);
  • reconnaissance des classes "difficiles" : milieux naturels (landes, zones humides), zones de transition (urbain diffus, friches);
  • solutions efficaces pour la vectorisation des cartes d'OS et problèmes de généralisation cartographique.

Ainsi, les algorithmes et les stratégies de production de cartes d'occupation des sols ont été abordés sous un format d'atelier avec des présentations de 20 minutes suivies de questions avec un temps de discussion et bilan à la fin.

Sur les 3 demi-journées il y a eu 57 participants avec une moyenne de présence autour de 40 personnes.

Programme

Le programme a été composé de 19 présentations et d'un bref bilan à la fin. Presque tous les conférenciers ont accepté de mettre à disposition leurs supports de présentation. Ils sont accessibles sur le programme détaillé ci-dessous.

  Jeudi 24 novembre  
  Introduction et position du problème dans le cadre du CES OSO  
10h Le produit OSO : limitations et verrous méthodologiques J. Inglada (CESBIO) (planches)
10h30 La chaîne iota2 : plate-forme libre de production d'OCS A. Vincent (CESBIO) (planches)
  Méthodes  
11h Performances d'algorithmes de classification supervisées en présence de données mal Ch. Pelletier (CESBIO) (planches)
  étiquetées dans l'ensemble d'apprentissage  
11h30 Apprentissage Profond pour la Classification Haute Résolution d'Images Satellite E. Maggiori (INRIA) (planches)
12h Classification d'images SPOT 6 par apprentissage profond T. Postadjian (MATIS) (planches)
12h30 L'incorporation de l'information spatiale dans le traitement des séries temporelles S. Valero (CESBIO) (planches)
  pour la cartographie de l'occupation du sol  
13h Déjeuner  
  Travaux en cours pour la production opérationnelle  
14h Le nouveau framework de classification de l'Orfeo Toolbox J. Michel (CNES) (planches)
14h30 Génération de données de référence pour la classification supervisée par fusion D. Morin (CESBIO) (planches)
  de BD existantes  
15h De la classification à la carte : régularisation et vectorisation de l'OCS V. Thierion (CESBIO)
    D. Dallery (Dynafor) (planches)
15h30 Pause  
16h Apport de la stratification éco-climatique dans la production d'OCS à échelle J. Inglada (CESBIO) (planches)
  nationale  
16h30 Production d'OCS sans donnée de référence pour la période cartographiée B. Tardy,
    D. Derksen (CESBIO) (planches)
17h Classification d'images quand la définition thématique des classes ne M. Fauvel (Dynafor) (planches)
  correspond pas aux statistiques  
17h30 Un retour d'expérience sur l'utilisation de iota2 au Sud : le cas de l'Ile de R. Gaetano (CIRAD) (planches)
  la Réunion  
18h00 Fin journée 1  
  Vendredi 25 novembre  
  Autres CES, autres produits d'OCS  
9h CES Détection de changements génériques P. Gançarski (ICUBE) (planches)
9h30 Vers la mise en place d'un prototype supervisé d'extraction des surfaces A. Puissant (LIVE)
  artificialisées - premiers résultats  
10h Utilisation de la THRS pour les problématiques urbaines : méthode de D. Hébrard (CEREMA) (planches)
  production des échantillons d'apprentissage  
10h30 Pause  
11h Approche par fusion de classification pour la production d'information A. Lefebvre (IRISA) (planches)
  à grande échelle : Application au suivi du milieu urbain en France de 1985 à 2010  
11h30 Une méthode semi-automatique de cartographie de l’occupation des sols a partir H. Giraud (ICUBE-SERTIT),
    A. Puissant (LIVE)
  d’images SAR polarimétriques  
12h Cartographie physionomique de la végétation naturelle S. Laventure (IRSTEA) (planches)
12h30 Discussion et conclusion  
13h Fin  

Conclusions

Le CES OSO

On peut constater que le CES OSO a du mal à attirer les contributions des laboratoires intéressés par l'occupation des sols (thématiciens et développeurs de méthodes), car le focus sur les approches à grande échelle pour la production opérationnelle a un effet dissuasif. En effet, les chercheurs sont peu évalués en termes de production de cartes ou de conception de systèmes de traitement (indépendamment de leur degré d'originalité), mais plutôt en termes de publications.

Pour les développeurs de méthodes, la mise à disposition des données nécessaires pour évaluer les méthodes à grande échelle pourrait être un facteur d'incitation. Les images utilisées par le CESBIO pour la production à échelle nationale sont issues de Theia et donc disponibles pour tous. Le CESBIO propose aussi de diffuser les données pré-traitées (gapfilling et ré-échantillonnage temporel), même si les outils pour réaliser ces traitements sont disponibles sous licence libre. Cependant, le point bloquant est la donnée de référence qui utilise certaines sources de données (RPG, BD-Topo) qui n'autorisent pas la re-diffusion.

Les liens du CES OSO avec 3 autres CES ont aussi été abordés :

Cartographie physionomique de la végétation naturelle.
Le CES OSO ne détaille pas le contenu des classes landes et pelouses, ne distingue que 2 grandes classes de forêts et ne traite pas de façon explicite les zones humides. La complémentarité entre les 2 CES est donc claire en termes de périmètre. Les méthodes développées par le CES CPVN sont principalement issues du projet CarHab et sont spécifiques aux différents milieux (haute altitude, moyenne altitude, milieu méditerranéen). Ces méthodologies sont, pour l'instant difficilement intégrables dans l'approche générique du CES OSO. En revanche, la chaîne iota2 a été utilisée par Irstea pour produire les masques des zones d'intérêt et les résultats sont équivalents à ceux obtenus avec la méthode experte développée dans CarHab.
Artificialisation.
Les résultats de ce CES sont prometteurs pour ce qui concerne la détection de la tache urbaine avec des données Sentinel-2. Cependant, le produit montré n'est pas plus détaillé que la nomenclature du CES OSO. En revanche, le calcul d'indicateurs sur les surfaces détectées est tout à fait spécifique à la problématique de l'artificialisation.
Détection de changements génériques.
Ce CES est dans la phase de démarrage. Il est donc difficile de voir quelles sont les synergies à mettre en place avec le CES OSO, qui lui, doit s'intéresser aux changements afin de produire des cartes dont le niveau d'erreur est compatible avec le suivi multi-temporel de l'évolution de l'occupation des sols à haute résolution spatiale.

La chaîne iota2

La présentation de la chaîne iota2 a suscité des questions concernant les points suivants :

Différences avec OTB.
iota2 est un système qui s'appuie sur l'OTB pour permettre la production à large échelle. Il ne s'agit pas d'un simple enchaînement d'applications OTB pour faire de la classification supervisée. iota2 a son intérêt quand les zones à traiter sont très grandes et donc couvertes par plusieurs orbites satellite (avec des dates différentes) et sur lesquelles on souhaite utiliser des approches de classification conditionnelles à des strates spatiales. iota2 permet aussi l'intégration de différents capteurs fournissant des séries temporelles. Les évolutions en cours permettront aussi les classifications multi-annuelles et l'exploitation de couvertures THRS mono-date.
Utilisation de données autres que celles issues de Theia.
iota2 est conçue pour utiliser des masques de validité (nuages, ombres) et pour exploiter des séries temporelles, cependant, rien n'empêche de l'utiliser avec d'autres types de données moyennant une préparation des formats et des arborescences. Le code source étant disponible, l'adaptation ne doit pas être très difficile.
Facilité d'utilisation par des non-experts.
iota2 a été créée pour être installée dans le centre de production Muscate que le CNES développe pour le compte de Theia et donc gérée par des opérateurs formés. Cependant, l'utilisation de iota2 repose sur un fichier de configuration qui ne nécessite pas de connaissance détaillée sur les méthodes mises en oeuvre. Malgré tout, iota2 reste difficile à installer et n'a pas de documentation utilisateur suffisamment détaillée pour une prise en main autonome. Le CESBIO a organisé des formations, mais n'a pas les moyens de continuer à proposer du support de ce type.

L'apprentissage profond

Les méthodes d'apprentissage profond, notamment celles basées sur les réseaux de neurones convolutionnels commencent à faire leur apparition dans le domaine de l'imagerie satellitaire. Deux présentations sur ce sujet ont eu lieu dans l'atelier par l'Inria et IGN/Matis. L'intérêt de ces méthodes est d'automatiser la phase de conception de primitives pour la classification. Des bibliothèques libres, comme Torch7, existent et permettent une mise en oeuvre à moindre coût de développement, mais les coûts de calcul semblent très importants. Des approches plus simples comme celle proposée par l'Inria sont plus légères, mais demandent un effort sur la conception du réseau lui-même.

Les comparaisons avec l'état de l'art sont peu avancées et souvent peu systématiques : classification pixel avec SVM par rapport à un réseau convolutionnel qui a accès à des voisinages avec des analyses multi-échelles. Aussi, les essais présentés portent sur les petites étendues spatiales et n'exploitent pas l'information temporelle.

Le CESBIO a prévu de travailler sur le sujet du calcul non supervisé de primitives temporelles en utilisant des techniques d'apprentissage profond afin d'améliorer les performances de reconnaissance de iota2.

Stratégies de classification

Au delà du choix des classifieurs et des primitives utilisées pour les alimenter, les stratégies mises en oeuvre autour du coeur du système (classification) ont souvent un impact très fort sur les performances de reconnaissance des classes. Parmi ces stratégies, pendant l'atelier plusieurs sujets ont été abordés.

La stratification spatiale

L'utilisation d'un classifieur appris sur chaque région éco-climatique améliore de façon significative les performances de classification, car la variabilité intra-classe est plus faible. Cependant, cette approche n'a d'intérêt que sur de zones très étendues et nécessite des données de référence pour chaque région (strate). Elle nécessite aussi évidemment la connaissance des régions. La sensibilité de la méthode aux différents types de découpages possibles n'a pas été évaluée.

La sélection des échantillons pour l'apprentissage et la validation

Le nouveau framework d'échantillonnage de l'OTB permet un contrôle très fin de la façon dont on choisit les exemples d'apprentissage et de validation. Ce framework est utilisé dans iota2, notamment pour la gestion des classes annuelles. L'exploitation de différentes approches d'échantillonnage reste à tester, notamment en présence de forts déséquilibres entre les nombres d'échantillons disponibles pour chaque classe.

Le besoin de pouvoir qualifier la qualité des échantillons a été évoqué, et ceci en lien avec les travaux présentés par Charlotte Pelletier et les stratégies utilisées par le Cerema pour la validation manuelle des exemples d'apprentissage.

Les approches hiérarchiques pour la classification

La difficulté de la production de cartes d'occupation des sols fiables augmente avec le nombre de classes de la nomenclature. Les approches de classification hiérarchique qui consistent à réaliser des classifications successives emboîtées de façon à ce que chaque étape ait moins de classes à distinguer peuvent se montrer utiles dans certains cas. Dans d'autres cas, comme il a été montré par les essais du CIRAD sur La Réunion, si les classes difficiles à reconnaître sont minoritaires, elles sont perdues dès les premiers niveaux de la hiérarchie et cette approche n'améliore que les classes qui étaient déjà bien reconnues.

La différence entre une hiérarchie issue de la nomenclature par rapport à une hiérarchie issue des données (par exemple par clustering) a été mentionnée comme axe intéressant à étudier.

La détection de classes individuelles

Les High Resolution Layers de Copernicus sont un exemple d'occupation des sols où chaque classe est traitée séparément. Le travail présenté par Antoine Lefebvre suit cette même stratégie.

Si du point de vue thématique on comprend l'utilité de ce type de produits, y compris la possibilité d'y associer des indicateurs ou des taux de couverture, on peut se poser la question de son utilité du point de vue méthodologique. En effet, la plupart de classifieurs actuels adoptent déjà des approches à 1 ou à 2 classes :

  • les réseaux de neurones estiment la probabilité d'appartenance à chaque classe individuellement;
  • les SVM utilisent des compositions de classifieurs à 2 classes (un contre un ou un contre tous);
  • les Random Forests font une partition des échantillons en 2 groupes dans chaque noeud de chaque arbre en recherchant des populations pures.

La difficulté, dans tous les cas, est celle de gérer le conflit de l'appartenance d'un objet à plusieurs classes. Dans le cas du problème multi-classe, c'est au classifieur de faire ce choix. Dans le cas des produits mono-classe, on ne prend pas de décision par rapport au conflit éventuel entre les différents produits.

Lors de la discussion, on a évoqué la possibilité de livrer des produits où l'on donne le degré d'appartenance de chaque objet à chaque classe de la nomenclature. Le produit du CES OSO sera accompagné d'une carte de confiance où, pour chaque pixel, on renseigne la probabilité d'appartenance à la classe choisie. Il s'agit donc d'une version simplifiée de la proposition précédente. Le retour des utilisateurs sur ce type d'information sera utile pour en évaluer la facilité d'usage par rapport à l'utilité de l'information fournie.

Les données de référence

Presque la totalité des méthodes présentées s'appuient sur des approches de classification supervisée. La donnée de référence est donc très importante en termes de qualité et de disponibilité.

Erreurs dans les données de référence

Le CES OSO utilise principalement des bases de données existantes (CLC, BD-Topo, RPG) et donc contenant des erreurs en termes de changements ayant eu lieu depuis leur production. Les stratégies de nettoyage et de fusion de ces bases de données ont été présentées par David Morin. Il s'agit de procédures qui n'utilisent que les données de référence. Le Cerema a présenté des approches qui utilisent aussi le contenu des images avec des règles simples. Au CESBIO, dans la thèse de Charlotte Pelletier, des techniques de détection d'erreurs dans les données de référence sont aussi développées.

Disponibilité de la donnée de référence

Pour certaines classes, notamment les cultures, les données des années précédentes ne sont pas utilisables directement, car le taux de changement est très important. Le CESBIO a mis en place des techniques de fusion de classifieurs (thèse de Benjamin Tardy) et de modélisation par clustering (stage de Dawa Derksen) qui utilisent les données de référence et les images des années précédentes pour faire la classification de l'année en cours. Ces approches sont prometteuses, mais pas complètement satisfaisantes et les recherches doivent se poursuivre.

Sources de données

Les choix de sources de données faits par le CES OSO sont le résultat de démarches mises en place au CESBIO depuis des années et mériteraient probablement d'être revus. Dans l'atelier, il a été proposé de s'intéresser aux HRL et à Urban Atlas, qui avaient été mis de côté par le CES à cause du manque de recul sur ces produits en 2014.

Lors des discussions, le sujet du crowd-sourcing a été abordé. Dans les propositions TOSCA du CES OSO ce thème a été identifié. Il s'agit là de petites foules d'utilisateurs (laboratoires, instituts techniques, conservatoires) qui pourraient contribuer des données issues de leurs campagnes. Le CES OSO a commencé à mettre en place des outils pour la mise en cohérence de ces données. Des conventions et des coopérations avec les utilisateurs sont aussi en train de se créer. Cependant, la recherche sur les méthodes statistiques nécessaires pour la fusion et la gestion des conflits entre les données n'a pas démarré.

De la classification à la carte

Le résultat de la classification ne correspond pas à ce que les utilisateurs attendent en termes de produit cartographique. La notion clé ici est celle de taille minimale de collecte : la résolution dans le cas d'un produit raster et la taille du plus petit polygone dans le cas d'un produit vecteur. Le passage de la taille des pixels de la classification (10 m pour les images Sentinel-2, par exemple) à celle du produit final (20 m pour le produit CES OSO) ne se limite pas à un sous-échantillonnage, mais doit prendre en compte la régularisation nécessaire à la généralisation cartographique. Cette régularisation peut prendre en compte des priorités dans la nomenclature. Le passage du produit raster au vecteur ne consiste pas seulement à détourer les régions connexes pour construire des polygones, car le résultat pourrait souffrir de 2 défauts : la pixellisation et un volume de fichier supérieur à celui de l'image raster. Des traitements de simplification et adoucissement des polygones qui respectent la topologie des données sont nécessaires.

La solution qui est en train d'être mise au point par le CES OSO (DYNAFOR et CESBIO) satisfait les spécifications du produit, mais elle ouvre des perspectives de recherche qui nécessitent des compétences en cartographie et géomatique qui ne sont pas représentées au sein du CES actuellement. Un rapprochement avec l'équipe COGIT de l'IGN a été suggéré.

Un autre sujet qui émerge est celui de la mesure d'amélioration ou de dégradation du produit résultant de ces traitements, car le résultat est plus détaillé que la donnée de référence initiale.

Cartes d'occupation des sols 2009-2011

Même si nous attendons tous de voir des cartes d'occupation des sols de l'année 2016 produites avec Sentinel-2, certains utilisateurs nous ont demandé des cartes correspondant à des millésimes historiques. Theia met à disposition des données Landsat-5 pour les années 2009, 2010 et 2011 avec les niveaux de pré-traitement (corrections atmosphériques, masques de nuages, etc.) nécessaires pour produire des cartes d'occupation des sols avec iota2.

Arthur Vincent et David Morin au Cesbio ont donc passé un peu de temps à préparer des données de référence et à lancer les traitements. L'approche est la même que nous avons déjà décrit pour les données 2014. Les différences principales résident sur le fait que, pour la donnée de référence, nous avons combiné Corine Land Cover 2006 et 2012 (pour 2014 nous avions utilisé seulement 2012). Pour ce qui concerne les images, nous n'avons utilisé que Landsat-5, même si des données Landsat-7 étaient aussi disponibles. Utiliser Landsat-7 nous aurait permis d'augmenter le nombre d'acquisitions disponibles, mais à partir de 2003, ce satellite ne fournissait des données utilisables que sur une fauchée très limitée.

Cette fois, nous n'avons pas multiplié les versions des cartes et nous avons choisi de produire une seule carte par année en utilisant le mode éco-climatique, qui s'est montré plus performant pour les essais sur l'année 2014. Nous avons gardé une nomenclature à 18, classes, même si le découpage des zones artificialisées imperméables en 4 classes (bâti dense, bâti diffus, zones industrielles et commerciales et surfaces route) n'est pas très pertinent à la résolution de 30 m.

Les résultats obtenus viennent d'être mis à disposition ici à nouveau avec l'interface Open Layers réalisée par Arthur. L'icône en haut à droite vous permet de sélectionner les cartes qui seront affichées. A gauche, sous les boutons qui gèrent le niveau de zoom, vous avez la possibilité de sélectionner 2 des cartes pour lesquelles les statistiques de qualité (FScore par classe) seront affichées sous la zone de visualisation. Cela vous permet d'apprécier les différences entre les années. Nous avons aussi inclus la carte 2014 réalisée avec les données Landsat-8.

Nous n'avons pas eu le temps d'analyser les résultats en détail, mais les statistiques de validation (sur plus de 26 millions de pixels!) montrent que les performances sont un peu inférieures à celles de la carte 2014. Nous pensons que la baisse de qualité est principalement due au moindre nombre d'images disponibles (nous aurions finalement dû utiliser aussi Landsat-7) mais aussi au fait que les données Landsat-5 ont une qualité géométrique et radiométrique inférieure à celles de Landsat-8. Le nombre inférieur de données disponibles a un fort impact qui se traduit par une sur-détection de surfaces artificialisées.

Le fait d'avoir des cartes d'occupation des sols sur plusieurs années invite à vouloir faire de la détection d'évolutions, mais il faut être prudent. Avec un taux d'erreur supérieur à 10%, il est impossible d'envisager ce type de détection de façon directe sur les cartes. Si vous souhaitiez faire ce genre d'exercice, il faudrait sans doute fusionner les 4 classes de bâti, mais aussi faire une seule classe avec les pelouses et les landes (et peut-être aussi les prairies) et en faire de même avec les vignes et les vergers. Cela nous ramène à une nomenclature à 11 ou 12 classes, ce qui permet tout de même de faire des analyses intéressantes.

Si vous voulez récupérer les fichiers GeoTiff complets (attention, c'est volumineux!), vous pouvez utiliser les liens suivants :

Caractéristiques du produit Theia OSO pour la carte 2016

Depuis le mois d'avril 2016, le CES OSO a continué à travailler sur la chaîne iota2 afin de préparer l'arrivée des données Sentinel-2. Malheureusement, ces données commencent juste à être disponibles sur les serveurs de Theia et seulement quelques essais de petite envergure ont pu avoir lieu. En conséquence, certaines décisions concernant les caractéristiques de la première version du produit d'occupation des sols ont dû être reportées de quelques mois.

Ce que nous pouvons déjà annoncer est que pour la première version du produit, la carte sera produite sur un millésime de référence allant de janvier à décembre 2016 et diffusée sous forme raster avec des pixels de 20 m. mais le produit avec des pixels de 10 m. sera disponible pour les utilisateurs qui le souhaiteront. Des fichiers vecteurs découpés par région administrative et avec une unité minimale de collecte de 0.1 ha pourront aussi être télé-chargés.

La liste de classes cartographiées sera la suivante :

  1. Cultures annuelles d'été
  2. Cultures annuelles d'hiver
  3. Prairies
  4. Vignes
  5. Vergers et arboriculture
  6. Forêts feuillus
  7. Forêts résineux
  8. Pelouses et pâturages naturels
  9. Landes ligneuses
  10. Surfaces artificialisées imperméables
    1. Urbain continu
    2. Urbain discontinu
    3. Zones industrielles et commerciales
    4. Surfaces route
  11. Surfaces minérales naturelles
  12. Plages et dunes
  13. Eau
  14. Glaciers et neiges éternelles

Le découpage de la classe "Surfaces artificialisées imperméables" en 4 sous-classes n'a pas encore pu être validé en raison du manque de données Sentinel-2 évoqué ci-dessus, mais nous y travaillons pour que début 2017 la carte puisse proposer une nomenclature à 17 classes au lieu de seulement 14.

Les spécifications du produit ne sont pas donc figées afin que les besoins des utilisateurs puissent être pris en compte et le faire évoluer. Les activités de R&D sont en cours et continueront pendant quelques années. La qualité du produit évoluera, mais la continuité sera assurée via des re-traitements. De plus, les données utilisées et les chaînes de traitement sont libres, ce qui donne la possibilité de modification et adaptation pour des besoins spécifiques et donne une indépendance des utilisateurs vis-à-vis de Theia.

iota2 traite du Sentinel-2

Vous connaissez déjà la chaîne iota2 et vous savez qu'elle sait traiter les séries temporelles Landsat8 et générer des cartes d'occupation des sols. Ces derniers jours, Arthur a terminé le code permettant d'utiliser les séries temporelles Sentinel-2. Même si nous n'avons pas encore des séries Sentinel-2 sur toute la France (mais elles devraient arriver bientôt), nous avons utilisé des produits de démonstration fournis par THEIA pour valider la chaîne de traitement.

Tout a l'air de bien marcher et la résolution de 10m. de Sentinel-2 permet d'avoir beaucoup plus de détail au niveau des cartes produites. Voici 2 extraits (près d'Avignon) qui montrent la différence entre Landsat8 (en haut) et Sentinel-2 (en bas). Attention, la comparaison n'a de sens qu'en termes de détail spatial : les cartes ne correspondent pas aux mêmes périodes d'acquisition et les données de référence sont légèrement différentes. Il ne faut pas tirer donc de conclusion par rapport à la qualité thématique de ces cartes.

Le premier extrait montre une zone de végétation naturelle avec un peu d'agriculture.

coudoux.png

Le deuxième extrait montre le Rhône, la Durance et la ville d'Avignon. On peut apprécier le détail dans la ville et aussi les ponts sur le Rhône qui ne sont pas visibles sur la carte à 30 m.

avignon.png

L'utilisation de données à 10 m. de résolution et avec 12 bandes spectrales demande un temps de calcul bien supérieur à celui nécessaire pour traiter les données Landsat8. Heureusement, nous avons aussi optimisé une partie du traitement (le calcul des primitives) qui utilise maintenant une application OTB spécifique. Cela nous permet d'aller plus vite, mais aussi de générer moins de données intermédiaires.

La version de iota2 qui contient ces nouvelles fonctionnalités est accessible ici.

Nouvelles versions de la carte 2014

Nous avons beaucoup travaillé sur la procédure de génération des cartes d'occupation des sols ces derniers mois. Trois axes principaux1 ont été abordés par Arthur et David au Cesbio :

  1. Le portage et la validation de la chaîne de traitement iota2 sur l'infrastructure de calcul à haute performance (HPC) du Cnes.
  2. L'amélioration de la procédure de préparation des données de référence utilisées pour l'apprentissage des classifieurs et la validation des cartes produites.
  3. La mise au point de la stratification qui permet de spécialiser les algorithmes de classification par zone éco-climatique, par exemple.

En utilisant toutes ces nouveautés, nous avons produit beaucoup (vraiment beaucoup!) de cartes sur la France métropolitaine. Nous venons de mettre en ligne quelques exemples sur l'année 2014 en utilisant toutes les données Landsat8 disponibles. Nous avons choisi de vous montrer les 4 cas qui correspondent aux combinaisons suivantes :

  • sur la donnée de référence :
    1. utilisation de 4 classes de surfaces artificielles (abusivement appelées "bâti") : urbain continu, urbain discontinu, surfaces "route" et zones industrielles et commerciales2;
    2. regroupement a posteriori de ces 4 classes3;
  • sur le mode de stratification :
    1. avec stratification par zone éco-climatique4;
    2. sans stratification, mais avec une fusion de plusieurs (10) classifieurs appris sur des tuiles images différentes.

Arthur nous a concocté une interface assez pratique pour la visualisation et la comparaison des différentes cartes. Vous pouvez y accéder ici. L'icône en haut à droite vous permet de sélectionner les cartes qui seront affichées. A gauche, sous les boutons qui gèrent le niveau de zoom, vous avez la possibilité de sélectionner 2 des cartes pour lesquelles les statistiques de qualité (FScore par classe5) seront affichées sous la zone de visualisation. Cela vous permet d'apprécier les différences entre les approches.

Aux 4 nouvelles cartes, nous avons ajouté la version que nous avions publié en début d'année, dont la qualité est inférieure. Si vous regardez la précision globale de cette carte (Overall Accuracy) vous verrez qu'elle est en fait supérieure à celle des nouvelles cartes. Ceci est dû au fait que dans cette ancienne version, nous utilisions beaucoup de pixels d'eau pour la validation, et l'eau est très facile à classer. Le problème principal de cette ancienne version est le sur-classement des zones urbaines au dépens des surfaces minérales naturelles et des vergers. Ceci a été amélioré grâce au travail sur la préparation de la donnée de référence.

Pour comparer des cartes, il est utile de regarder les FScore par classe. Vous verrez ainsi que la stratification éco-climatique apporte des améliorations importantes sur les valeurs moyennes et sur les intervalles de confiance.

Si vous voulez récupérer les fichiers GeoTiff complets (attention, c'est volumineux!), vous pouvez utiliser les liens suivants :

N'hésitez pas à nous faire des retours. Nous continuons à travailler sur les améliorations des méthodes.

Footnotes:

1

Beaucoup d'autres tâches ont été réalisées, dont la préparation de l'ingestion des données Sentinel-2, par exemple.

2

Ces 4 classes correspondent à la nomenclature de Corine Land Cover, dont les polygones du millésime 2012 ont été affinés en utilisant une procédure développée par David et Marcela et décrite dans cette présentation (à partir de la planche 33).

3

L'apprentissage et la classification sont toujours faits avec les 4 classes séparées, mais elles sont regroupées à la fin, ce qui permet d'augmenter la précision de la carte en échange d'une perte de finesse thématique. Mais les pixels de 30 m. de Landsat ne nous permettent d'être très précis pour ces classes.

4

Nous avons utilisé la carte publiée par Joly et al.

5

Nous utilisons cette métrique, car elle combine les erreurs d'omission et de commission.

Prototype sur la France entière avec Landsat8 en 2014

En préparation de la journée utilisateurs du CES OSO de mardi 16/02, voici une carte d'occupation des sols sur la France métropolitaine produite à partir de données Landsat-8 de 2014 (N2A Theia). Le produit est visualisable ici.

Il s'agit d'un premier jet qui contient des artefacts notamment dus à une production en 2 lots (nord/sud).

Ce lien te permet de récupérer le geotiff complet : http://cyan.ups-tlse.fr:8080/geoserver/SudOuest/wcs?service=WCS&version=1.0.0&request=GetCoverage&coverage=SudOuest:Mosaic_France2014_V1_ColorIndexedT&bbox=100020.0,6111270.0,1110150.0,7121400.0&resx=30&resy=30&crs=EPSG:2154&format=geotiff

Pour récupérer seulement une petite région, on peut changer le lien. Il contient tous les paramètres nécessaires : bouning box (bbox) et résolution. Les coordonnées de la boîte englobante sont données en Lambert-93.

Merci beaucoup à Marcela pour ce travail. Merci aussi à Arthur et Benjamin pour les développements informatiques qui permettront de déployer la chaîne sur le cluster du CNES pour pouvoir accélérer les traitements et soulager nos collègues du CESBIO.

Nous allons continuer à améliorer la chaîne de production et générer de nouvelles versions du produit dans les semaines à venir.