Artificial Intelligence challenges organised around geo-data and deep learning
➡ 🔗 Liens utiles |
➡ 🎯 Chiffres clés |
➡ 🗂️ Modalités du dataset |
➡ 🏷️ Supervision |
➡ 🧱 Architecture de référence |
➡ 🧭 Défis FLAIR précédents |
FLAIR-HUB intègre et étend les jeux de données FLAIR#1 et FLAIR#2 pour former une ressource unifiée, à grande échelle et multi-capteur, dédiée à l’occupation du sol, avec des annotations à très haute résolution. Couvrant plus de 2 500 km² de paysages et d’éco-climats variés à travers la France, il contient plus de 63 milliards de pixels annotés manuellement, répartis sur 19 classes d’occupation du sol et 23 classes de types de cultures. Ce jeu de données aligne des sources complémentaires, incluant l’imagerie aérienne, les satellites SPOT et Sentinel, des donnés d'élévation, ainsi que des photographies aériennes historiques, apportant une diversité spatiale, spectrale et temporelle riche. FLAIR-HUB soutient le développement de méthodes de segmentation sémantique, de fusion multimodale et d’apprentissage auto-supervisé, et continuera d’évoluer avec de nouvelles modalités et annotations. |
---|
📄 Data Paper – Learn more about the dataset in the official publication |
📁 Téléchargez le jeu de données jouet (~750 MB) – Inclut toutes les modalités dans une version allégée (accès direct) |
📁 Téléchargez le jeu de données complet – Accédez à l'intégralité de FLAIR-HUB sur HuggingFace |
🤖 Modèles pré-entraînés – Explorez les modèles développés sur FLAIR-HUB |
💻 Code source (GitHub) – Scripts d'entraînement, de prétraitement et de benchmark |
✉️ Nous contacter – flair@ign.fr – Pour toute question ou proposition de collaboration ! |
Si vous utilisez FLAIR-HUB, veuillez citer :
Anatol Garioud, Sébastien Giordano, Nicolas David, Nicolas Gonthier.
FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping. (2025).
DOI: https://doi.org/10.48550/arXiv.2506.07080
@article{ign2025flairhub,
doi = {10.48550/arXiv.2506.07080},
url = {https://arxiv.org/abs/2506.07080},
author = {Garioud, Anatol and Giordano, Sébastien and David, Nicolas and Gonthier, Nicolas},
title = {FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping},
publisher = {arXiv},
year = {2025}
}
🗺️ | ROI / Surface couverte | 2,822 ROIs / 2,528 km² |
🏛️ | Départements (France) | 74 |
🧩 | Patches IA (512×512 px) | 241,100 |
🖼️ | Pixels annotés | 63.2 milliard |
🛰️ | Acquisitions Sentinel-2 | 256,221 |
📡 | Acquisitions Sentinel-1 | 532,696 |
📁 | Fichiers | ~2.5 million |
💾 | Taille totale | ~750 GB |
Modalité | Description | Résolution / Format | Métadonnées |
---|---|---|---|
BD ORTHO (AERIAL_RGBI) | Images aériennes orthorectifiées avec 4 bandes (R, V, B, PIR). | 20 cm, entier non signé 8 bits | Statistiques radiométriques, dates/caméras d'acquisition |
BD ORTHO HISTORIQUE (AERIAL-RLT_PAN) | Images aériennes panchromatiques historiques (1947–1965), rééchantillonnées. | ~40 cm, réel : 0,4–1,2 m, entier 8 bits | Dates, références aux images originales |
ELEVATION (DEM_ELEV) | Données d'élévation avec canaux MNS (surface) et MNT (terrain). | MNS : 20 cm, MNT : 1 m, Float32 | Hauteur des objets via la différence MNS–MNT |
SPOT (SPOT_RGBI) | Images satellites SPOT 6-7, 4 bandes, réflectance calibrée. | 1,6 m (rééchantillonnée) | Dates d'acquisition, statistiques radiométriques |
SENTINEL-2 (SENTINEL2_TS) | Séries temporelles annuelles avec 10 bandes spectrales, réflectance calibrée. | 10,24 m (rééchantillonnée) | Dates, stats radiométriques, masques nuage/neige |
SENTINEL-1 ASC/DESC (SENTINEL1-XXX_TS) | Séries temporelles radar (VV, VH), rétrodiffusion SAR (σ0). | 10,24 m (rééchantillonnée) | Statistiques par série ascendante/descendante |
LABELS CoSIA (AERIAL_LABEL-COSIA) | Annotations de couverture du sol à partir de photo-interprétation d'AERIAL_RGBI. | 20 cm, 15 à 19 classes | Aligné avec BD ORTHO, statistiques par patch |
LABELS LPIS (ALL_LABEL-LPIS) | Informations sur les cultures issues des déclarations PAC, classification hiérarchique. | 20 cm | Aligné temporellement avec BD ORTHO, différences possibles avec CoSIA |
FLAIR-HUB propose deux sources complémentaires de supervision : une annotation à haute résolution de l’occupation du sol, réalisée par photo-interprétation experte à partir des images aériennes RGBI. Elle offre une précision au niveau du pixel et couvre 19 classes d’occupation du sol; une annotation issue des déclarations agricoles dans le cadre de la Politique Agricole Commune (PAC). Elle est structurée en une taxonomie hiérarchique allant jusqu’à 46 classes de types de cultures. Alors que CoSIA reflète l’occupation réelle du sol visible sur les images, LPIS correspond à l’usage déclaré des terres par les agriculteurs. Par conséquent, ces deux modalités diffèrent dans leur objectif, leur précision géométrique, et leur alignement spatial.
![]() Occupation du sol (CoSIA)
|
![]() Types de culture (RPG)
|
Le modèle de base, FLAIR-UPerFuse, est une architecture modulaire conçue pour la segmentation sémantique à partir de données de télédétection multi-modales et multi-temporelles. Il combine l'extraction spatiale de caractéristiques via un Swin Transformer, le traitement temporel à l’aide d’un encodeur UTAE, un mécanisme de fusion dédié, et un décodeur UPerNet pour produire les cartes de segmentation. L’architecture s’adapte dynamiquement en fonction des modalités disponibles en entrée — qu’elles soient mono-temporelles ou multi-temporelles — et intègre des branches auxiliaires pour améliorer la supervision et faciliter l’apprentissage spécifique à chaque modalité. L'entraînement repose sur une fonction de perte composite qui équilibre les contributions principales et auxiliaires selon les tâches et les modalités considérées.
FLAIR#1 a lancé le tout premier défi à grande échelle pour la cartographie de l’occupation des sols à partir d’images aériennes à très haute résolution (20 cm), accompagnées d’annotations sémantiques expertes sur 812 km² de paysages français variés. Le jeu de données contenait plus de 77 000 patchs annotés selon 19 classes d’occupation des sols (13 utilisées pour l'entraînement) et s’est concentré sur l’adaptation de domaine, avec un test effectué sur des régions et des dates d’acquisition totalement inédites. Le défi a mis en évidence la difficulté de construire des modèles généralisables face à des décalages spatio-temporels marqués. Les modèles de base étaient des U-Net, établissant une première référence pour la segmentation sémantique inter-domaine en télédétection.
🔗 FLAIR#1 dépôt code : https://github.com/IGNF/FLAIR-1
🔗 FLAIR#1 datapaper : https://arxiv.org/pdf/2211.12979.pdf
FLAIR#2 a poursuivi cet effort en intégrant des séries temporelles Sentinel-2 en plus des images aériennes, afin d’aborder la fusion multimodale et l’apprentissage temporel. Avec plus de 20 milliards de pixels annotés sur 817 km² et 916 zones, FLAIR#2 introduit 13 classes principales et exploite des super-patchs spatio-temporels pour enrichir le contexte. Le jeu de données couvre 50 domaines spatiaux et intègre plus de 51 000 acquisitions Sentinel-2. Un modèle de référence bi-branche (U-T&T), combinant U-Net et U-TAE, a démontré l’intérêt de fusionner texture mono-date et spectre multi-temporel. Le défi met en avant la fusion inter-résolution, l’hétérogénéité capteur et l’apprentissage robuste à partir de données étiquetées parcimonieusement.
🔗 FLAIR#2 dépôt code : https://github.com/IGNF/FLAIR-2
🔗 FLAIR#2 datapaper : https://arxiv.org/abs/2310.13336
🎖️ Podiums des défis