DEV Community

Cover image for AlphaEarth Satellite Embeddings : révolution ou gadget pour l’exploration minière ?
Gérard Cubaka
Gérard Cubaka

Posted on

AlphaEarth Satellite Embeddings : révolution ou gadget pour l’exploration minière ?

Introduction

Pour nous, géologues d’exploration, l’imagerie satellite est une mine d’or (jeu de mots volontaire). Cartographie des altérations hydrothermales, extraction de linéaments structuraux, planification de terrain en zone inaccessible : la télédétection est devenue indispensable.

Mais le pipeline classique reste un enfer technique :

  1. Télécharger des pétaoctets de scènes brutes (Sentinel-2, Landsat, ASTER).
  2. Passer des jours à corriger les effets atmosphériques, masquer nuages et végétation.
  3. Enchaîner les ratios de bandes (argiles, oxydes de fer, silicates) sans garantie de généralisation d’un site à l’autre.

Récemment, Google (via un modèle annoncé sous le nom de travail AlphaEarth, à ne pas confondre avec AlphaFold) a proposé une approche radicalement différente : des Satellite Embeddings. Au lieu de manipuler des réflectances brutes, on utilise des vecteurs de 64 dimensions qui résument l’état de surface à 10 mètres de résolution.

Je m’appelle Gérard Cubaka, géologue d’exploration et développeur géospatial. Dans cet article, je décris :

  • ce que contiennent vraiment ces embeddings,
  • comment les utiliser concrètement (avec code et limites),
  • et si cela vaut la peine d’abandonner vos ratios ASTER.

1. Qu’est-ce qu’un Satellite Embedding – sans jargon inutile

Les embeddings sont une généralisation des indices spectraux. Au lieu d’un ratio (ex. bande 4/bande 2), un réseau de neurones a appris à compresser des centaines de mesures (spectrales, radar, topographie) en 64 nombres flottants par pixel de 10 mètres.

AlphaEarth (source : Google Earth Engine, GOOGLE/SATELLITE_EMBEDDING/V1_ANNUAL) a été entraîné sur :

  • Sentinel-2 (13 bandes optiques),
  • Sentinel-1 (VH/VV, rugosité),
  • SRTM (élévation, pente),
  • variables climatiques (température, précipitations, neige).

L’entraînement est auto-supervisé (type DINO ou SimCLR) : le modèle apprend à rendre similaires des pixels pris à différentes dates ou sous différents angles, même s’ils sont loin géographiquement, à condition que leur signature spectrale-radar soit proche. Résultat : deux zones avec la même altération hydrothermale auront des vecteurs proches, même séparées par un océan.

⚠️ Point important : Il ne s’agit pas d’un modèle de fusion physique explicite, mais d’une compression statistique. Les bandes A00 à A63 n’ont pas de sens physique direct.


2. Pourquoi c’est intéressant pour l’exploration minière

Objectif Approche classique Avec embeddings
Cartographie régionale d’altération argileuse Calcul de ratio SWIR (ASTER 6/8) + masquage Similarité vectorielle à un pixel témoin
Détection de pegmatites en zone aride Analyse en composantes principales + seuillage manuel Clustering non supervisé (k-means) sur 64 bandes
Planification terrain Interprétation visuelle + photo-interprétation Carte de favorabilité générée en minutes

Gain principal : on saute tout le prétraitement (atmosphère, nuages, mosaïquage). Les embeddings sont analysis-ready.

Exemple concret (simulé mais réaliste) :

Un indice d’or épithermal dans une caldeira au Mexique. On extrait le vecteur moyen sur 5 pixels du gîte connu, puis on calcule la distance cosinus sur une zone d’étude au Pérou. Les zones avec score >0.92 correspondent à des altérations siliceuses + argiles, validées a posteriori par des images ASTER.


3. Spécifications techniques – ce qu’il faut vraiment savoir

  • Résolution : 10 mètres (pas de ré-échantillonnage, c’est la résolution native de Sentinel-2)
  • Bandes : 64 (A00 à A63), valeurs normalées (typiquement entre -5 et +5, distribution non gaussienne)
  • Fréquence : annuelle (2017–2025). Pas de mensuelle, pas de journalière.
  • Couverture : mondiale, mais attention :
    • Océans masqués (NaN)
    • Zones polaires (neige permanente) peu fiables
    • Forêts denses : l’embedding intègre le radar (structure de canopée) mais ne « voit » pas le sol.
  • Accès : Google Earth Engine (gratuit pour recherche et ONGs, payant au-delà d’un quota)
import ee
ee.Initialize()

embedding = (ee.ImageCollection("GOOGLE/SATELLITE_EMBEDDING/V1_ANNUAL")
             .filterDate('2024-01-01', '2024-12-31')
             .first())

print(embedding.bandNames().getInfo())  # ['A00', ..., 'A63']
Enter fullscreen mode Exit fullscreen mode

4. Workflow d’exploration complet – de la requête à la carte

Étape 1 – Définir un vecteur cible

Depuis un gîte connu ou une zone annotée en affleurement :

target_mean = (embedding
               .clip(geometry_zone_interet)
               .reduceRegion(ee.Reducer.mean(), geometry_zone_interet, 10)
               .toImage()
               .rename('target'))
Enter fullscreen mode Exit fullscreen mode

Étape 2 – Calculer la similarité sur une zone étendue

from scipy.spatial.distance import cosine
# (dans GEE directement : meilleure perf)
cosine_sim = embedding.map(lambda img: img.rename('vec')).zip(target_mean).map(lambda f: 1 - f.get('target').cosine(f.get('vec')))
Enter fullscreen mode Exit fullscreen mode

Étape 3 – Seuillage et export

carte_favorabilite = cosine_sim.gt(0.90).selfMask()
Enter fullscreen mode Exit fullscreen mode

On exporte en GeoTIFF ou on visualise dans QGIS avec un plugin GEE.

Seuil typique : >0.95 → cible prioritaire, 0.85–0.95 → zone de prospective, <0.85 → bruit probable.


5. Avantages documentés (avec nuances)

✅ Avantage ❌ Limite associée
Prêt à l’emploi, pas de correction atmosphérique Effet boîte noire : on ne sait pas pourquoi A12 réagit
Fusion optique + radar + topo Pas de signature minérale pure (mélange sol, végétation, humidité)
Idéal pour ciblage régional (Greenfield) Inefficace en forêt dense (optique bloquée, radar ne voit que la canopée)
Reproductible d’un permis à l’autre Transfert inter-domaine médiocre (ex. désert → zone tempérée)
Gestion automatique des nuages (mosaïque annuelle) Pas de série temporelle, donc aucun suivi de mine actif

6. Limites critiques – ce que Google ne vous dit pas

1. Validation géologique quasi absente

Aucune étude publiée ne montre une corrélation systématique entre un cluster d’embeddings et un type métallogénique connu (ex. porphyry Cu, IOCG, or orogénique). Les cas d’usage sont encore anecdotiques.

2. Risque de confusion

Une zone agricole irriguée peut ressembler à une altération argileuse : humidité + sol nu + SAR brillant. Un chemin de mine peut imiter une fracture. Les embeddings ne font pas la différence.

3. Résolution temporelle annuelle

Pour un géologue d’exploration, c’est acceptable (la géologie ne change pas à l’échelle humaine). Mais pour l’exploitation minière (suivi de talus, stock de stérile), c’est inutilisable.

4. Dépendance à GEE

Hors GEE, impossible d’utiliser ces embeddings (pas de redistribution libre). Si Google change son catalogue ou le rend payant, votre workflow s’effondre.

5. Biais d’entraînement

Le modèle est probablement sur-représenté en zones arides (signature propre) et sous-représenté en zones tropicales humides (bruit). Un modèle entraîné sur l’Arizona généralise mal à l’Indonésie.


7. Comparaison avec méthodes classiques – quand utiliser quoi ?

Cas d’usage Embeddings Ratios spectraux (ASTER/S2)
Carte rapide d’altération régionale ✅ Excellente ❌ Lent (prétraitement)
Cartographie précise de la kaolinite ❌ Non (boîte noire) ✅ Oui (ratio 6/8)
Détection de structures (failles, dykes) ✅ Bon (SAR intégré) ❌ Moyen (dépend éclairage)
Interprétation publiable / rapport de conformité ❌ Non (non reproductible) ✅ Oui (formule explicite)
Prospective sur cible similaire à gîte connu ✅ Oui ❌ Non (les ratios ne comparent pas des zones entre continents)

8. Intégration dans une vraie stratégie d’exploration

Je recommande une approche hybride :

  1. Phase 1 : Embeddings pour ciblage rapide (plusieurs pays, millions d’hectares).
  2. Phase 2 : Filtrage par géologie régionale et données publiques (gîtes connus, SIG minier).
  3. Phase 3 : Validation par indices spectraux classiques (argiles, fer) sur les zones court-listées.
  4. Phase 4 : Terrain + échantillonnage.

Les embeddings ne remplacent pas la géologie, ils accélèrent le tri.


9. Questions ouvertes – pour les experts qui veulent creuser

  • Les embeddings sont-ils sensibles à la saison de l’image annuelle (ex. dominante été/hiver) ?
  • Peut-on les combiner avec des données hyperspectrales (EnMAP, PRISMA) ou géophysiques (magnétisme, radiométrie) ?
  • Existe-t-il un embedding spécifiquement entraîné pour la minéralisation (et pas généraliste) ?
  • Quelle est la robustesse face au changement climatique (sécheresse modifiant la signature du régolithe) ?

10. Conclusion : verdict pratique

Les Satellite Embeddings ne sont pas une révolution minérale, mais une évolution industrielle : ils réduisent le temps de préparation des données et permettent une recherche par similarité à l’échelle mondiale. Pour un géologue d’exploration, c’est un nouvel outil dans la boîte, pas le couteau suisse ultime.

À adopter si : vous travaillez en zone aride ou semi-aride, vous cherchez des analogues à un gîte connu, vous maîtrisez GEE et Python.

À éviter si : vous avez besoin d’une cartographie minérale précise, vous êtes en forêt équatoriale, ou vous devez publier une méthode reproductible.


11. Discussion (ouverte)

Utilisez-vous déjà des embeddings satellitaires en exploration ? Avez-vous testé AlphaEarth sur un projet réel ? Des retours sur la distance cosinus vs distance euclidienne en contexte géologique ?

Suivez-moi pour plus de contenus combinant géologie, télédétection et IA. N’hésitez pas à commenter avec vos cas d’usage ou vos échecs instructifs.

— Gérard Cubaka, géologue d’exploration & développeur géospatial.

Top comments (0)