Hackathon ADEME 2026 · AIBalance

Et si choisir la bonne IA
pouvait changer la donne ?

On a analysé près d'un demi-million de conversations entre humains et IA pour comprendre ce que personne ne montre : le vrai coût énergétique de chaque modèle.

« À qualité égale, pourquoi certains modèles consomment 172 fois plus d'énergie que d'autres ? »

Walid Mouaoued · Edwin Li · Karim Merkache · Alexis Fabre | Encadrant : Wejdene Abdallah

495K

conversations

analysées sur Compar:IA

102

modèles d'IA

comparés en qualité et conso

172x

d'écart énergie

entre modèles de qualité égale

-47%

d'énergie

en choisissant le modèle sobre

Le problème

La même réponse, 49 fois plus d'énergie

Vous posez une question simple à une IA. Selon le modèle qui vous répond, la consommation d'énergie peut varier du simple au quarante-neuf. Et la réponse ? Quasi identique.

Le choix par défaut

GPT-4o

"Explique-moi la photosynthèse"

3.93 Wh

Score qualité : 0.72

même qualité

→

Notre recommandation

Gemma-3-4b

"Explique-moi la photosynthèse"

0.08 Wh

Score qualité : 0.70

49 fois plus d'énergie pour un résultat quasi identique. L'utilisateur ne voit aucune différence. La planète, si.

Essayez

Testez avec votre propre prompt

Tapez votre question comme vous le feriez sur ChatGPT. Notre moteur détecte la tâche et vous recommande le modèle optimal.

Le constat

On gaspille de l'énergie sans le savoir

Aujourd'hui, les utilisateurs choisissent un modèle d'IA par habitude ou par réputation. Nos données montrent que ce choix a un coût caché, souvent énorme.

Les gaspillages les plus marquants

Ces modèles populaires ont des alternatives tout aussi bonnes, mais bien moins gourmandes

Modèle utilisé	Alternative sobre	Écart
Grok-4-fast 14.5 Wh/1k tokens	Gemma-3-4b 0.08 Wh/1k tokens	x172
Gemini 1.5 Pro 11.1 Wh/1k tokens	Gemma-3-4b 0.08 Wh/1k tokens	x131
Llama 3.1 405B 9.1 Wh/1k tokens	LFM2-8b 0.08 Wh/1k tokens	x113
Claude 4.5 Sonnet 3.9 Wh/1k tokens	Gemma-3-4b 0.08 Wh/1k tokens	x47
GPT-4o 3.9 Wh/1k tokens	LFM2-8b 0.08 Wh/1k tokens	x49

Énergie vs. qualité : la carte des modèles

Survolez les bulles : les modèles verts sont les pépites cachées

Ce que ca veut dire concretement Les modèles les plus connus (GPT-4o, Claude, Gemini Pro) ne sont pas les plus efficaces. Des modèles légers comme Gemma-3-4b ou Gemma-3-12b font aussi bien, pour une fraction de l'énergie. Le problème ? Personne ne le sait.

Nos donnees

Trois regards croisés sur un même problème

Notre force : croiser l'énergie mesurée, la qualité perçue par les utilisateurs, et la transparence des organisations. Aucune de ces trois dimensions ne suffit seule.

Compar:IA

La plus grande plateforme de benchmark collaboratif d'IA en France

Conversations495 000+

Énergie mesuréekWh / conversation

Votes humainsWin rates réels

Catégories21 types de tâches

FMTI Stanford

L'indice de référence mondiale sur la transparence des modèles

Indicateurs~100 criteres

Organisations13 acteurs majeurs

CouvertureDonnees, compute, risques

VersionDecembre 2025

Specs techniques

Paramètres, architectures et benchmarks énergétiques par modèle

Modeles102 compares

Parametresde 1B a 405B

Metrique cleWh / 1000 tokens

Score compositeRatio d'efficacité

Segmentation

Deux familles de modèles, deux philosophies

Notre algorithme de clustering révèle un contraste saisissant : la majorité des modèles sont sobres, mais les plus visibles sont les plus gourmands.

LES SOBRES

Sobre + Standard

Energie moyenne< 1 Wh/1k tok

Qualite moyenne~50% win rate

Qui sont-ils ?Gemma-3, Mistral-small, Qwen-3, EuroLLM

Nos données montrent que choisir sobre c'est gagner ~85% d'énergie pour une perte de qualité inférieure à 5% sur la plupart des catégories. Profils identifiés par KMeans (silhouette optimale).

LES GOURMANDS

Gourmand + Performant

Energie moyenne> 3 Wh/1k tok

Qualite moyenne~55% win rate

Qui sont-ils ?GPT-4o, Claude, Gemini Pro, Grok, DeepSeek

Quelques points de qualité en plus, mais jusqu'à 172x plus d'énergie. Notre moteur les recommande uniquement pour les prompts complexes (code, >100 mots, multi-questions) via le filtre de complexite.

Efficacité par catégorie et par profil

Les sobres dominent en efficacité (wr/wh) sur toutes les catégories, poids critères data-driven

Transparence

Les plus populaires sont aussi les plus opaques

Comment faire un choix éclairé si les fournisseurs ne disent rien sur leurs pratiques énergétiques ? L'indice Stanford le confirme : la transparence reste l'exception.

Le paradoxe de la popularite xAI (14%) et Mistral (18%) figurent parmi les fournisseurs les plus utilises, mais ne divulguent presque rien. Notre solution integre ce score de transparence pour penaliser les acteurs opaques et valoriser ceux qui jouent le jeu.

Impact mesure

Ce que nos données rendent possible

En guidant simplement l'utilisateur vers le modèle adapté à sa tâche, les économies d'énergie sont spectaculaires et immédiates.

-47%

d'énergie totale économisée

Simulation : chaque utilisateur choisit l'optimal

71%

hit rate en ablation

Notre pipeline vs. 4 strategies alternatives

21%

des choix gaspillent >10x

Ratio médian x1, max x172 entre modèles équivalents

Concrètement, ça représente quoi ?

L'énergie gaspillée sur nos 495K conversations suffirait à :

193 000

recharges de smartphone

de quoi recharger un téléphone pendant 528 ans

96 500 h

d'éclairage LED

soit 11 ans d'ampoule allumée non-stop

5 150 km

en voiture électrique

un aller-retour Paris – Istanbul

35 jours

de consommation d'un foyer

soit plus d'un mois pour un ménage français

Modèle optimal par catégorie

Meilleur modèle équivalent (DELTA=0.03) au plus sobre en énergie

Notre solution

Un guide intelligent, transparent et instantané

L'utilisateur pose sa question normalement. En coulisses, notre pipeline ML détecte le type de tâche et recommande le modèle le plus efficient, sans compromis sur la qualité.

Prompt

L'utilisateur pose sa question comme d'habitude

→

Classification

Embeddings sémantiques 384d → 72% accuracy

→

Complexite

Filtre adaptatif : prompts simples vs complexes

→

Equivalence

Filtre DELTA=0.03 (non-infériorité, Wellek 2010)

→

Recommandation

Top 3 par mode : performance / balanced / green

Performances du pipeline v3

Embeddings sémantiques + HistGradientBoosting + DELTA non-infériorité

Classification

72%

Hit rate ablation

71%

Gain énergie

-47%

Qualité maintenue

63%

Recommandations par tâche

Le modèle optimal identifié automatiquement pour chaque besoin

Tâche	On recommande	Énergie
Science & Tech	gpt-5.4-nano	0.08 Wh
Education	mistral-small-2603	0.35 Wh
Business	gemini-2.0-flash	3.93 Wh
Loisirs	mistral-small-2603	0.35 Wh
Arts	minimax-m2.5	0.73 Wh
Sante	nemotron-3-super	0.38 Wh

Et si choisir la bonne IApouvait changer la donne ?

Sobre + Standard

Gourmand + Performant

Et si choisir la bonne IA
pouvait changer la donne ?