Hackathon ADEME 2026 · AIBalance

Et si choisir la bonne IA
pouvait changer la donne ?

On a analysé près d'un demi-million de conversations entre humains et IA pour comprendre ce que personne ne montre : le vrai coût énergétique de chaque modèle.

« À qualité égale, pourquoi certains modèles consomment 172 fois plus d'énergie que d'autres ? »
Walid Mouaoued · Edwin Li · Karim Merkache · Alexis Fabre  |  Encadrant : Wejdene Abdallah
495K
conversations
analysées sur Compar:IA
102
modèles d'IA
comparés en qualité et conso
172x
d'écart énergie
entre modèles de qualité égale
-47%
d'énergie
en choisissant le modèle sobre
Le problème
La même réponse, 49 fois plus d'énergie

Vous posez une question simple à une IA. Selon le modèle qui vous répond, la consommation d'énergie peut varier du simple au quarante-neuf. Et la réponse ? Quasi identique.

Le choix par défaut
GPT-4o
"Explique-moi la photosynthèse"
3.93 Wh
Score qualité : 0.72
même qualité
Notre recommandation
Gemma-3-4b
"Explique-moi la photosynthèse"
0.08 Wh
Score qualité : 0.70
i
49 fois plus d'énergie pour un résultat quasi identique. L'utilisateur ne voit aucune différence. La planète, si.

Essayez
Testez avec votre propre prompt

Tapez votre question comme vous le feriez sur ChatGPT. Notre moteur détecte la tâche et vous recommande le modèle optimal.


Le constat
On gaspille de l'énergie sans le savoir

Aujourd'hui, les utilisateurs choisissent un modèle d'IA par habitude ou par réputation. Nos données montrent que ce choix a un coût caché, souvent énorme.

Les gaspillages les plus marquants
Ces modèles populaires ont des alternatives tout aussi bonnes, mais bien moins gourmandes
Modèle utiliséAlternative sobreÉcart
Grok-4-fast
14.5 Wh/1k tokens
Gemma-3-4b
0.08 Wh/1k tokens
x172
Gemini 1.5 Pro
11.1 Wh/1k tokens
Gemma-3-4b
0.08 Wh/1k tokens
x131
Llama 3.1 405B
9.1 Wh/1k tokens
LFM2-8b
0.08 Wh/1k tokens
x113
Claude 4.5 Sonnet
3.9 Wh/1k tokens
Gemma-3-4b
0.08 Wh/1k tokens
x47
GPT-4o
3.9 Wh/1k tokens
LFM2-8b
0.08 Wh/1k tokens
x49
Énergie vs. qualité : la carte des modèles
Survolez les bulles : les modèles verts sont les pépites cachées
i
Ce que ca veut dire concretement Les modèles les plus connus (GPT-4o, Claude, Gemini Pro) ne sont pas les plus efficaces. Des modèles légers comme Gemma-3-4b ou Gemma-3-12b font aussi bien, pour une fraction de l'énergie. Le problème ? Personne ne le sait.

Nos donnees
Trois regards croisés sur un même problème

Notre force : croiser l'énergie mesurée, la qualité perçue par les utilisateurs, et la transparence des organisations. Aucune de ces trois dimensions ne suffit seule.

01
Compar:IA
La plus grande plateforme de benchmark collaboratif d'IA en France
Conversations495 000+
Énergie mesuréekWh / conversation
Votes humainsWin rates réels
Catégories21 types de tâches
02
FMTI Stanford
L'indice de référence mondiale sur la transparence des modèles
Indicateurs~100 criteres
Organisations13 acteurs majeurs
CouvertureDonnees, compute, risques
VersionDecembre 2025
03
Specs techniques
Paramètres, architectures et benchmarks énergétiques par modèle
Modeles102 compares
Parametresde 1B a 405B
Metrique cleWh / 1000 tokens
Score compositeRatio d'efficacité

Segmentation
Deux familles de modèles, deux philosophies

Notre algorithme de clustering révèle un contraste saisissant : la majorité des modèles sont sobres, mais les plus visibles sont les plus gourmands.

LES SOBRES

Sobre + Standard

Energie moyenne< 1 Wh/1k tok
Qualite moyenne~50% win rate
Qui sont-ils ?Gemma-3, Mistral-small, Qwen-3, EuroLLM

Nos données montrent que choisir sobre c'est gagner ~85% d'énergie pour une perte de qualité inférieure à 5% sur la plupart des catégories. Profils identifiés par KMeans (silhouette optimale).

LES GOURMANDS

Gourmand + Performant

Energie moyenne> 3 Wh/1k tok
Qualite moyenne~55% win rate
Qui sont-ils ?GPT-4o, Claude, Gemini Pro, Grok, DeepSeek

Quelques points de qualité en plus, mais jusqu'à 172x plus d'énergie. Notre moteur les recommande uniquement pour les prompts complexes (code, >100 mots, multi-questions) via le filtre de complexite.

Efficacité par catégorie et par profil
Les sobres dominent en efficacité (wr/wh) sur toutes les catégories, poids critères data-driven

Transparence
Les plus populaires sont aussi les plus opaques

Comment faire un choix éclairé si les fournisseurs ne disent rien sur leurs pratiques énergétiques ? L'indice Stanford le confirme : la transparence reste l'exception.

!
Le paradoxe de la popularite xAI (14%) et Mistral (18%) figurent parmi les fournisseurs les plus utilises, mais ne divulguent presque rien. Notre solution integre ce score de transparence pour penaliser les acteurs opaques et valoriser ceux qui jouent le jeu.

Impact mesure
Ce que nos données rendent possible

En guidant simplement l'utilisateur vers le modèle adapté à sa tâche, les économies d'énergie sont spectaculaires et immédiates.

-47%
d'énergie totale économisée
Simulation : chaque utilisateur choisit l'optimal
71%
hit rate en ablation
Notre pipeline vs. 4 strategies alternatives
21%
des choix gaspillent >10x
Ratio médian x1, max x172 entre modèles équivalents
Concrètement, ça représente quoi ?

L'énergie gaspillée sur nos 495K conversations suffirait à :

193 000
recharges de smartphone
de quoi recharger un téléphone pendant 528 ans
96 500 h
d'éclairage LED
soit 11 ans d'ampoule allumée non-stop
5 150 km
en voiture électrique
un aller-retour Paris – Istanbul
35 jours
de consommation d'un foyer
soit plus d'un mois pour un ménage français
Modèle optimal par catégorie
Meilleur modèle équivalent (DELTA=0.03) au plus sobre en énergie

Notre solution
Un guide intelligent, transparent et instantané

L'utilisateur pose sa question normalement. En coulisses, notre pipeline ML détecte le type de tâche et recommande le modèle le plus efficient, sans compromis sur la qualité.

1
Prompt
L'utilisateur pose sa question comme d'habitude
2
Classification
Embeddings sémantiques 384d → 72% accuracy
3
Complexite
Filtre adaptatif : prompts simples vs complexes
4
Equivalence
Filtre DELTA=0.03 (non-infériorité, Wellek 2010)
5
Recommandation
Top 3 par mode : performance / balanced / green
Performances du pipeline v3
Embeddings sémantiques + HistGradientBoosting + DELTA non-infériorité
Classification
72%
Hit rate ablation
71%
Gain énergie
-47%
Qualité maintenue
63%
Recommandations par tâche
Le modèle optimal identifié automatiquement pour chaque besoin
TâcheOn recommandeÉnergie
Science & Techgpt-5.4-nano0.08 Wh
Educationmistral-small-26030.35 Wh
Businessgemini-2.0-flash3.93 Wh
Loisirsmistral-small-26030.35 Wh
Artsminimax-m2.50.73 Wh
Santenemotron-3-super0.38 Wh