Atelier Méthodes pour l'Occupation des Sols Opérationnelle - Compte rendu

Introduction

Le CES OSO a organisé les 24 et 25 novembre 2016 au CESBIO un atelier sur les méthodes de traitements d'imagerie satellitaire pour la production automatique de cartes d'occupation des sols. L'objectif était de faire un point sur les principales difficultés dans un contexte de production opérationnelle ou à grande échelle et de mettre en face des idées, voire des résultats prometteurs. Les thèmes proposés étaient :

  • gestion des zones très nuageuses où le sol est visible 1 à 2 fois par an en optique;
  • prise en compte des erreurs dans les données de référence pour les apprentissages supervisés;
  • prise en compte de la variabilité intra-classe sur des grandes étendues;
  • absence d'échantillons (en quantité suffisante) pour certaines classes de la nomenclature;
  • utilisation conjointe de sources de données images de résolutions différentes (mise en correspondance, résolution de travail, etc.);
  • reconnaissance des classes "difficiles" : milieux naturels (landes, zones humides), zones de transition (urbain diffus, friches);
  • solutions efficaces pour la vectorisation des cartes d'OS et problèmes de généralisation cartographique.

Ainsi, les algorithmes et les stratégies de production de cartes d'occupation des sols ont été abordés sous un format d'atelier avec des présentations de 20 minutes suivies de questions avec un temps de discussion et bilan à la fin.

Sur les 3 demi-journées il y a eu 57 participants avec une moyenne de présence autour de 40 personnes.

Programme

Le programme a été composé de 19 présentations et d'un bref bilan à la fin. Presque tous les conférenciers ont accepté de mettre à disposition leurs supports de présentation. Ils sont accessibles sur le programme détaillé ci-dessous.

  Jeudi 24 novembre  
  Introduction et position du problème dans le cadre du CES OSO  
10h Le produit OSO : limitations et verrous méthodologiques J. Inglada (CESBIO) (planches)
10h30 La chaîne iota2 : plate-forme libre de production d'OCS A. Vincent (CESBIO) (planches)
  Méthodes  
11h Performances d'algorithmes de classification supervisées en présence de données mal Ch. Pelletier (CESBIO) (planches)
  étiquetées dans l'ensemble d'apprentissage  
11h30 Apprentissage Profond pour la Classification Haute Résolution d'Images Satellite E. Maggiori (INRIA) (planches)
12h Classification d'images SPOT 6 par apprentissage profond T. Postadjian (MATIS) (planches)
12h30 L'incorporation de l'information spatiale dans le traitement des séries temporelles S. Valero (CESBIO) (planches)
  pour la cartographie de l'occupation du sol  
13h Déjeuner  
  Travaux en cours pour la production opérationnelle  
14h Le nouveau framework de classification de l'Orfeo Toolbox J. Michel (CNES) (planches)
14h30 Génération de données de référence pour la classification supervisée par fusion D. Morin (CESBIO) (planches)
  de BD existantes  
15h De la classification à la carte : régularisation et vectorisation de l'OCS V. Thierion (CESBIO)
    D. Dallery (Dynafor) (planches)
15h30 Pause  
16h Apport de la stratification éco-climatique dans la production d'OCS à échelle J. Inglada (CESBIO) (planches)
  nationale  
16h30 Production d'OCS sans donnée de référence pour la période cartographiée B. Tardy,
    D. Derksen (CESBIO) (planches)
17h Classification d'images quand la définition thématique des classes ne M. Fauvel (Dynafor) (planches)
  correspond pas aux statistiques  
17h30 Un retour d'expérience sur l'utilisation de iota2 au Sud : le cas de l'Ile de R. Gaetano (CIRAD) (planches)
  la Réunion  
18h00 Fin journée 1  
  Vendredi 25 novembre  
  Autres CES, autres produits d'OCS  
9h CES Détection de changements génériques P. Gançarski (ICUBE) (planches)
9h30 Vers la mise en place d'un prototype supervisé d'extraction des surfaces A. Puissant (LIVE)
  artificialisées - premiers résultats  
10h Utilisation de la THRS pour les problématiques urbaines : méthode de D. Hébrard (CEREMA) (planches)
  production des échantillons d'apprentissage  
10h30 Pause  
11h Approche par fusion de classification pour la production d'information A. Lefebvre (IRISA) (planches)
  à grande échelle : Application au suivi du milieu urbain en France de 1985 à 2010  
11h30 Une méthode semi-automatique de cartographie de l’occupation des sols a partir H. Giraud (ICUBE-SERTIT),
    A. Puissant (LIVE)
  d’images SAR polarimétriques  
12h Cartographie physionomique de la végétation naturelle S. Laventure (IRSTEA) (planches)
12h30 Discussion et conclusion  
13h Fin  

Conclusions

Le CES OSO

On peut constater que le CES OSO a du mal à attirer les contributions des laboratoires intéressés par l'occupation des sols (thématiciens et développeurs de méthodes), car le focus sur les approches à grande échelle pour la production opérationnelle a un effet dissuasif. En effet, les chercheurs sont peu évalués en termes de production de cartes ou de conception de systèmes de traitement (indépendamment de leur degré d'originalité), mais plutôt en termes de publications.

Pour les développeurs de méthodes, la mise à disposition des données nécessaires pour évaluer les méthodes à grande échelle pourrait être un facteur d'incitation. Les images utilisées par le CESBIO pour la production à échelle nationale sont issues de Theia et donc disponibles pour tous. Le CESBIO propose aussi de diffuser les données pré-traitées (gapfilling et ré-échantillonnage temporel), même si les outils pour réaliser ces traitements sont disponibles sous licence libre. Cependant, le point bloquant est la donnée de référence qui utilise certaines sources de données (RPG, BD-Topo) qui n'autorisent pas la re-diffusion.

Les liens du CES OSO avec 3 autres CES ont aussi été abordés :

Cartographie physionomique de la végétation naturelle.
Le CES OSO ne détaille pas le contenu des classes landes et pelouses, ne distingue que 2 grandes classes de forêts et ne traite pas de façon explicite les zones humides. La complémentarité entre les 2 CES est donc claire en termes de périmètre. Les méthodes développées par le CES CPVN sont principalement issues du projet CarHab et sont spécifiques aux différents milieux (haute altitude, moyenne altitude, milieu méditerranéen). Ces méthodologies sont, pour l'instant difficilement intégrables dans l'approche générique du CES OSO. En revanche, la chaîne iota2 a été utilisée par Irstea pour produire les masques des zones d'intérêt et les résultats sont équivalents à ceux obtenus avec la méthode experte développée dans CarHab.
Artificialisation.
Les résultats de ce CES sont prometteurs pour ce qui concerne la détection de la tache urbaine avec des données Sentinel-2. Cependant, le produit montré n'est pas plus détaillé que la nomenclature du CES OSO. En revanche, le calcul d'indicateurs sur les surfaces détectées est tout à fait spécifique à la problématique de l'artificialisation.
Détection de changements génériques.
Ce CES est dans la phase de démarrage. Il est donc difficile de voir quelles sont les synergies à mettre en place avec le CES OSO, qui lui, doit s'intéresser aux changements afin de produire des cartes dont le niveau d'erreur est compatible avec le suivi multi-temporel de l'évolution de l'occupation des sols à haute résolution spatiale.

La chaîne iota2

La présentation de la chaîne iota2 a suscité des questions concernant les points suivants :

Différences avec OTB.
iota2 est un système qui s'appuie sur l'OTB pour permettre la production à large échelle. Il ne s'agit pas d'un simple enchaînement d'applications OTB pour faire de la classification supervisée. iota2 a son intérêt quand les zones à traiter sont très grandes et donc couvertes par plusieurs orbites satellite (avec des dates différentes) et sur lesquelles on souhaite utiliser des approches de classification conditionnelles à des strates spatiales. iota2 permet aussi l'intégration de différents capteurs fournissant des séries temporelles. Les évolutions en cours permettront aussi les classifications multi-annuelles et l'exploitation de couvertures THRS mono-date.
Utilisation de données autres que celles issues de Theia.
iota2 est conçue pour utiliser des masques de validité (nuages, ombres) et pour exploiter des séries temporelles, cependant, rien n'empêche de l'utiliser avec d'autres types de données moyennant une préparation des formats et des arborescences. Le code source étant disponible, l'adaptation ne doit pas être très difficile.
Facilité d'utilisation par des non-experts.
iota2 a été créée pour être installée dans le centre de production Muscate que le CNES développe pour le compte de Theia et donc gérée par des opérateurs formés. Cependant, l'utilisation de iota2 repose sur un fichier de configuration qui ne nécessite pas de connaissance détaillée sur les méthodes mises en oeuvre. Malgré tout, iota2 reste difficile à installer et n'a pas de documentation utilisateur suffisamment détaillée pour une prise en main autonome. Le CESBIO a organisé des formations, mais n'a pas les moyens de continuer à proposer du support de ce type.

L'apprentissage profond

Les méthodes d'apprentissage profond, notamment celles basées sur les réseaux de neurones convolutionnels commencent à faire leur apparition dans le domaine de l'imagerie satellitaire. Deux présentations sur ce sujet ont eu lieu dans l'atelier par l'Inria et IGN/Matis. L'intérêt de ces méthodes est d'automatiser la phase de conception de primitives pour la classification. Des bibliothèques libres, comme Torch7, existent et permettent une mise en oeuvre à moindre coût de développement, mais les coûts de calcul semblent très importants. Des approches plus simples comme celle proposée par l'Inria sont plus légères, mais demandent un effort sur la conception du réseau lui-même.

Les comparaisons avec l'état de l'art sont peu avancées et souvent peu systématiques : classification pixel avec SVM par rapport à un réseau convolutionnel qui a accès à des voisinages avec des analyses multi-échelles. Aussi, les essais présentés portent sur les petites étendues spatiales et n'exploitent pas l'information temporelle.

Le CESBIO a prévu de travailler sur le sujet du calcul non supervisé de primitives temporelles en utilisant des techniques d'apprentissage profond afin d'améliorer les performances de reconnaissance de iota2.

Stratégies de classification

Au delà du choix des classifieurs et des primitives utilisées pour les alimenter, les stratégies mises en oeuvre autour du coeur du système (classification) ont souvent un impact très fort sur les performances de reconnaissance des classes. Parmi ces stratégies, pendant l'atelier plusieurs sujets ont été abordés.

La stratification spatiale

L'utilisation d'un classifieur appris sur chaque région éco-climatique améliore de façon significative les performances de classification, car la variabilité intra-classe est plus faible. Cependant, cette approche n'a d'intérêt que sur de zones très étendues et nécessite des données de référence pour chaque région (strate). Elle nécessite aussi évidemment la connaissance des régions. La sensibilité de la méthode aux différents types de découpages possibles n'a pas été évaluée.

La sélection des échantillons pour l'apprentissage et la validation

Le nouveau framework d'échantillonnage de l'OTB permet un contrôle très fin de la façon dont on choisit les exemples d'apprentissage et de validation. Ce framework est utilisé dans iota2, notamment pour la gestion des classes annuelles. L'exploitation de différentes approches d'échantillonnage reste à tester, notamment en présence de forts déséquilibres entre les nombres d'échantillons disponibles pour chaque classe.

Le besoin de pouvoir qualifier la qualité des échantillons a été évoqué, et ceci en lien avec les travaux présentés par Charlotte Pelletier et les stratégies utilisées par le Cerema pour la validation manuelle des exemples d'apprentissage.

Les approches hiérarchiques pour la classification

La difficulté de la production de cartes d'occupation des sols fiables augmente avec le nombre de classes de la nomenclature. Les approches de classification hiérarchique qui consistent à réaliser des classifications successives emboîtées de façon à ce que chaque étape ait moins de classes à distinguer peuvent se montrer utiles dans certains cas. Dans d'autres cas, comme il a été montré par les essais du CIRAD sur La Réunion, si les classes difficiles à reconnaître sont minoritaires, elles sont perdues dès les premiers niveaux de la hiérarchie et cette approche n'améliore que les classes qui étaient déjà bien reconnues.

La différence entre une hiérarchie issue de la nomenclature par rapport à une hiérarchie issue des données (par exemple par clustering) a été mentionnée comme axe intéressant à étudier.

La détection de classes individuelles

Les High Resolution Layers de Copernicus sont un exemple d'occupation des sols où chaque classe est traitée séparément. Le travail présenté par Antoine Lefebvre suit cette même stratégie.

Si du point de vue thématique on comprend l'utilité de ce type de produits, y compris la possibilité d'y associer des indicateurs ou des taux de couverture, on peut se poser la question de son utilité du point de vue méthodologique. En effet, la plupart de classifieurs actuels adoptent déjà des approches à 1 ou à 2 classes :

  • les réseaux de neurones estiment la probabilité d'appartenance à chaque classe individuellement;
  • les SVM utilisent des compositions de classifieurs à 2 classes (un contre un ou un contre tous);
  • les Random Forests font une partition des échantillons en 2 groupes dans chaque noeud de chaque arbre en recherchant des populations pures.

La difficulté, dans tous les cas, est celle de gérer le conflit de l'appartenance d'un objet à plusieurs classes. Dans le cas du problème multi-classe, c'est au classifieur de faire ce choix. Dans le cas des produits mono-classe, on ne prend pas de décision par rapport au conflit éventuel entre les différents produits.

Lors de la discussion, on a évoqué la possibilité de livrer des produits où l'on donne le degré d'appartenance de chaque objet à chaque classe de la nomenclature. Le produit du CES OSO sera accompagné d'une carte de confiance où, pour chaque pixel, on renseigne la probabilité d'appartenance à la classe choisie. Il s'agit donc d'une version simplifiée de la proposition précédente. Le retour des utilisateurs sur ce type d'information sera utile pour en évaluer la facilité d'usage par rapport à l'utilité de l'information fournie.

Les données de référence

Presque la totalité des méthodes présentées s'appuient sur des approches de classification supervisée. La donnée de référence est donc très importante en termes de qualité et de disponibilité.

Erreurs dans les données de référence

Le CES OSO utilise principalement des bases de données existantes (CLC, BD-Topo, RPG) et donc contenant des erreurs en termes de changements ayant eu lieu depuis leur production. Les stratégies de nettoyage et de fusion de ces bases de données ont été présentées par David Morin. Il s'agit de procédures qui n'utilisent que les données de référence. Le Cerema a présenté des approches qui utilisent aussi le contenu des images avec des règles simples. Au CESBIO, dans la thèse de Charlotte Pelletier, des techniques de détection d'erreurs dans les données de référence sont aussi développées.

Disponibilité de la donnée de référence

Pour certaines classes, notamment les cultures, les données des années précédentes ne sont pas utilisables directement, car le taux de changement est très important. Le CESBIO a mis en place des techniques de fusion de classifieurs (thèse de Benjamin Tardy) et de modélisation par clustering (stage de Dawa Derksen) qui utilisent les données de référence et les images des années précédentes pour faire la classification de l'année en cours. Ces approches sont prometteuses, mais pas complètement satisfaisantes et les recherches doivent se poursuivre.

Sources de données

Les choix de sources de données faits par le CES OSO sont le résultat de démarches mises en place au CESBIO depuis des années et mériteraient probablement d'être revus. Dans l'atelier, il a été proposé de s'intéresser aux HRL et à Urban Atlas, qui avaient été mis de côté par le CES à cause du manque de recul sur ces produits en 2014.

Lors des discussions, le sujet du crowd-sourcing a été abordé. Dans les propositions TOSCA du CES OSO ce thème a été identifié. Il s'agit là de petites foules d'utilisateurs (laboratoires, instituts techniques, conservatoires) qui pourraient contribuer des données issues de leurs campagnes. Le CES OSO a commencé à mettre en place des outils pour la mise en cohérence de ces données. Des conventions et des coopérations avec les utilisateurs sont aussi en train de se créer. Cependant, la recherche sur les méthodes statistiques nécessaires pour la fusion et la gestion des conflits entre les données n'a pas démarré.

De la classification à la carte

Le résultat de la classification ne correspond pas à ce que les utilisateurs attendent en termes de produit cartographique. La notion clé ici est celle de taille minimale de collecte : la résolution dans le cas d'un produit raster et la taille du plus petit polygone dans le cas d'un produit vecteur. Le passage de la taille des pixels de la classification (10 m pour les images Sentinel-2, par exemple) à celle du produit final (20 m pour le produit CES OSO) ne se limite pas à un sous-échantillonnage, mais doit prendre en compte la régularisation nécessaire à la généralisation cartographique. Cette régularisation peut prendre en compte des priorités dans la nomenclature. Le passage du produit raster au vecteur ne consiste pas seulement à détourer les régions connexes pour construire des polygones, car le résultat pourrait souffrir de 2 défauts : la pixellisation et un volume de fichier supérieur à celui de l'image raster. Des traitements de simplification et adoucissement des polygones qui respectent la topologie des données sont nécessaires.

La solution qui est en train d'être mise au point par le CES OSO (DYNAFOR et CESBIO) satisfait les spécifications du produit, mais elle ouvre des perspectives de recherche qui nécessitent des compétences en cartographie et géomatique qui ne sont pas représentées au sein du CES actuellement. Un rapprochement avec l'équipe COGIT de l'IGN a été suggéré.

Un autre sujet qui émerge est celui de la mesure d'amélioration ou de dégradation du produit résultant de ces traitements, car le résultat est plus détaillé que la donnée de référence initiale.