Prédiction des performances énergétiques et environnementales du parc résidentiel
La performance énergétique des bâtiments : un gisement de carbone pour l’atténuation du changement climatique
La performance énergétique des bâtiments est un enjeu majeur dans la lutte contre le changement climatique. Le secteur résidentiel représente en 2021 28%1 du total de la consommation d’énergie final consommée en France. Toujours en 2021, il représente 11% du total national d’émissions de GES en France (hors émissions indirectes liées à l’électricité et aux réseaux de chaleur urbains)2. Il est donc crucial de comprendre et d’améliorer l’efficacité énergétique du parc immobilier.
Pour inciter et suivre les améliorations du parc bâti existant en France métropolitaine, l’outil réglementaire principal est le diagnostic de performance énergétique (DPE).
Initié en 2006, il a été réformé au 1er juillet 2021 avec l’entrée en vigueur de l’arrêté du 31 mars 2021. Désormais, le DPE sert à identifier les passoires énergétiques, dont les conditions de location et de vente se durcissent progressivement.
Dans sa forme actuelle (DPE méthode 3CL 2021), un DPE repose sur la collecte de données de performances du bâti et des systèmes énergétiques par un diagnostiqueur. En conjonction avec un ensemble d’hypothèses conventionnelles (météo, usages…), ces données sont utilisées pour calculer les consommations conventionnelles des 5 usages réglementaires (chauffage, ECS, refroidissement, ventilation et éclairage) et leurs émissions de gaz à effet de serre (GES). Ce sont ces consommations et ces émissions qui sont utilisées pour classer un logement.
Les prédictions de performances énergétiques et environnementales de la BDNB
La raison d’être de la BDNB est de catalyser la transition écologique en apportant des données pertinentes aux acteurs de cette transition. À ce titre, nos prédictions sur la performance du parc existant, notamment nos prédictions de diagnostic de performance énergétique, revêtent une importance particulière.
Les prédictions de performances énergétique et environnementale de la BDNB permettent à la fois de prédire les classes DPE et d’identifier les gisements d’économie d’énergie et de réduction carbone. Ces prédictions apportent un conseil aux particuliers à l’échelle de chaque bâtiment tout en fournissant une vision stratégique à grande échelle.
Les prédictions de performances énergétiques et environnementales de la BDNB, en résumé :
- 86% de prédictions correctes des classes DPE à plus ou moins une étiquette près. 45% de prédictions exactes (estimation par validation croisée).
- Estiment les performances probables actuelles d’un logement qui ne dispose pas d’un DPE récent pour 95% des logements.
- Estiment les gains possibles pour un logement en cas de rénovation globale
- Donnent une image fidèle des performances du parc résidentiel existant d’un point de vue statistique à toutes les échelles
- Combinent une approche thermique classique avec un modèle d’IA générative probabiliste pour les performances de l’enveloppe et des systèmes
- Incluent un indicateur de fiabilité des prédictions pour chaque bâtiment estimé par propagation d’incertitudes
- Sont adaptables aux changements de réglementations (exemple : calcul DPE sur les petites surfaces)
- Utilisées pour prédire les gains de valeur foncière à la vente après rénovation (valeur verte)
- Utilisées pour prédire l’indicateur de surchauffe bâtiment BDNB (
ISB-DH
)

Description des jeux de données
Table BDNB | Description |
---|---|
batiment_groupe_simulation_dpe | Résultats agrégés des simulations DPE pour les groupes de bâtiments à usage résidentiel |
local_simulations_dpe | Résultats agrégés des simulations DPE à l’échelle des locaux. Prend en compte la position du logement dans un bâtiment résidentiel collectif |
batiment_groupe_delimitation_enveloppe | json contenant pour chaque façade : surfaces, orientations, masques d’ombrage (36 orientations) et nature d’adjacence (documentation en ligne) |
prediction_enveloppe_et_systemes | Tirage Monté Carlo des performances probables de l’enveloppe et de systèmes (format parquet, 100 tirages par groupe de bâtiments, 2+ milliards de lignes) |
batiment_groupe_simulations_dpe
Contient les indicateurs de performances agrégées pour chaque bâtiment à usage résidentiel. Il s’agit des données visualisables librement sur https://gorenove.fr. Les étiquettes DPE prédites dans cette table sont des étiquettes calculées à l’échelle “bâtiment”. Pour les maisons individuelles il s’agit d’une estimation de l’étiquette DPE de la maison individuelle. Pour les logements collectifs, il s’agit d’une estimation de l’étiquette de l’immeuble dans son ensemble comme pour le DPE collectif .
Les variables sont présentées par thèmes :
Les méta données du millésime en cours (https://api.bdnb.io/v1/bdnb/metadonnees/info) sont disponibles via l’API : https://api.bdnb.io/v1/bdnb/metadonnees/colonne?nom_table=eq.batiment_groupe_simulations_dpe
Classes DPE avant et après rénovation
Nom de la colonne | Description | type de données |
---|---|---|
batiment_groupe_id | Identifiant du groupe de bâtiment au sens de la BDNB | varchar |
code_departement_insee | Code département INSEE | varchar |
etiquette_dpe_initial_a | Estimation de la probabilité d’avoir des logements d’étiquette A dans le bâtiment pour l’état actuel du bâtiment | float4 |
etiquette_dpe_initial_b | Estimation de la probabilité d’avoir des logements d’étiquette B dans le bâtiment pour l’état actuel du bâtiment | float4 |
etiquette_dpe_initial_c | Estimation de la probabilité d’avoir des logements d’étiquette C dans le bâtiment pour l’état actuel du bâtiment | float4 |
etiquette_dpe_initial_d | Estimation de la probabilité d’avoir des logements d’étiquette D dans le bâtiment pour l’état actuel du bâtiment | float4 |
etiquette_dpe_initial_e | Estimation de la probabilité d’avoir des logements d’étiquette E dans le bâtiment pour l’état actuel du bâtiment | float4 |
etiquette_dpe_initial_f | Estimation de la probabilité d’avoir des logements d’étiquette F dans le bâtiment pour l’état actuel du bâtiment | float4 |
etiquette_dpe_initial_g | Estimation de la probabilité d’avoir des logements d’étiquette G dans le bâtiment pour l’état actuel du bâtiment | float4 |
etiquette_dpe_initial_error | Code erreur sur la simulation de DPE pour l’état actuel du bâtiment | float4 |
etiquette_dpe_initial_map | Etiquette ayant la plus grande probabilité pour l’état actuel du bâtiment. Adapté pour les particuliers. | varchar |
etiquette_dpe_initial_map_2nd | Les 2 étiquettes ayant la plus grande probabilité pour l’état actuel du bâtiment. Si le champs vaut F-G alors F la première étiquette est l’étiquette la plus probable, G la seconde étiquette la plus probable. | varchar |
etiquette_dpe_initial_map_prob | Probabilité que le bâtiment ait une étiquette DPE égale à l’étiquette ayant la plus grande probabilité pour l’état actuel du bâtiment. C’est la probabilité d’avoir pour ce bâtiment l’étiquette etiquette_dpe_initial_map. Si etiquette_dpe_initial_map = F et que etiquette_dpe_initial_map_prob = 0.64 alors il y a 64% de chance que l’étiquette DPE de ce bâtiment soit classé F | float4 |
etiquette_dpe_initial_map_2nd_prob | Probabilité que le bâtiment ait une étiquette DPE parmi les 2 étiquettes ayant la plus grande probabilité pour l’état actuel du bâtiment. Si etiquette_dpe_initial_map_2nd = F-G et que etiquette_dpe_initial_map_2nd_prob = 0.95 alors il y a 95% de chance que l’étiquette DPE de ce bâtiment soit classé F ou G. | float4 |
etiquette_dpe_initial_inc | Classe d’incertitude de classe sur l’étiquette dpe avec la plus grande probabilité avant rénovation [1 à 5]. Cet indicateur se lit de 1 = peu fiable à 5 = fiable. | float4 |
etiquette_dpe_renove_a | Estimation de la probabilité d’avoir des logements d’étiquette A dans le bâtiment après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) | float4 |
etiquette_dpe_renove_b | Estimation de la probabilité d’avoir des logements d’étiquette B dans le bâtiment après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) | float4 |
etiquette_dpe_renove_c | Estimation de la probabilité d’avoir des logements d’étiquette C dans le bâtiment après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) | float4 |
etiquette_dpe_renove_d | Estimation de la probabilité d’avoir des logements d’étiquette D dans le bâtiment après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) | float4 |
etiquette_dpe_renove_e | Estimation de la probabilité d’avoir des logements d’étiquette E dans le bâtiment après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) | float4 |
etiquette_dpe_renove_f | Estimation de la probabilité d’avoir des logements d’étiquette F dans le bâtiment après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) | float4 |
etiquette_dpe_renove_g | Estimation de la probabilité d’avoir des logements d’étiquette G dans le bâtiment après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) | float4 |
etiquette_dpe_renove_error | Erreur sur la simulation de DPE avant rénovation | float4 |
etiquette_dpe_renove_map | Etiquette ayant la plus grande probabilité après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) | varchar |
etiquette_dpe_renove_map_2nd | Les 2 étiquettes ayant la plus grande probabilité après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) | varchar |
etiquette_dpe_renove_map_prob | Probabilité que le bâtiment ait une étiquette DPE égale à l’étiquette ayant la plus grande probabilité après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) | float4 |
etiquette_dpe_renove_map_2nd_prob | Probabilité que le bâtiment ait une étiquette DPE parmi les 2 étiquettes ayant la plus grande probabilité après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) | float4 |
etiquette_dpe_renove_inc | Incertitude de classe sur l’étiquette dpe avec la plus grande probabilité après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) [1-5] | float4 |
Consommations énergétiques et émissions GES avant et après rénovation globale, gisement
Nom de la colonne | Description | type de données |
---|---|---|
indecence_energetique_initial | probabilité du bâtiment d’être en indécence énergétique dans son état initial | numeric |
indecence_energetique_renove | probabilité du bâtiment d’être en indécence énergétique dans son état rénové (rénovation globale) | numeric |
gisement_gain_conso_finale_total | Estimation du gisement de gain de consommation finale total | int4 |
gisement_gain_ges_mean | Estimation moyenne du gisement de gain sur les émissions de gaz à effets de serre | int4 |
gisement_gain_energetique_mean | Estimation du gain énergétique moyen | int4 |
etat_initial_consommation_energie_estim_inc | Incertitude des estimations de consommation énergétique finale avant rénovation [kWh/m2/an] | int4 |
etat_initial_consommation_energie_estim_lower | Estimation basse de la consommation énergétique finale avant rénovation [kWh/m2/an] | int4 |
etat_initial_consommation_energie_estim_mean | Estimation moyenne de la consommation énergétique finale avant rénovation [kWh/m2/an] | int4 |
etat_initial_consommation_energie_estim_upper | Estimation haute de la consommation énergétique finale avant rénovation [kWh/m2/an] | int4 |
etat_initial_consommation_energie_primaire_estim_lower | Estimation basse de la consommation énergétique primaire avant rénovation [kWh/m2/an] | int4 |
etat_initial_consommation_energie_primaire_estim_mean | Estimation moyenne de la consommation énergétique primaire avant rénovation [kWh/m2/an] | int4 |
etat_initial_consommation_energie_primaire_estim_upper | Estimation haute de la consommation énergétique primaire avant rénovation [kWh/m2/an] | int4 |
etat_initial_consommation_ges_estim_inc | Incertitude sur l’estimation de consommation de GES avant rénovation [kgeqC02/m2/an] | int4 |
etat_initial_ges_estim_lower | Estimation basse de la consommation de GES avant rénovation [kgeqC02/m2/an] | int4 |
etat_initial_ges_estim_mean | Estimation moyenne de la consommation de GES avant rénovation [kgeqC02/m2/an] | int4 |
etat_initial_ges_estim_upper | Estimation haute de la consommation de GES avant rénovation [kgeqC02/m2/an] | int4 |
etat_initial_risque_canicule | (déprécié) Estimation du risque canicule avant rénovation [1-5]. Voir indicateur de surchauffe bâtiment ISB_DH dans le jeux de données batiment_groupe_predictions_isb | int4 |
etat_initial_risque_canicule_inc | (déprécié) Incertitude de l’estimation du risque canicule avant rénovation [1-5]. Voir indicateur de surchauffe bâtiment ISB_DH dans le jeux de données batiment_groupe_predictions_isb | int4 |
etat_renove_consommation_energie_estim_inc | Incertitude sur les estimations des consommations énergétiques finales après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) [kWh/m2/an] | int4 |
etat_renove_consommation_energie_estim_lower | Estimation basse de la consommation énergétique finale après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) [kWh/m2/an] | int4 |
etat_renove_consommation_energie_estim_mean | Estimation moyenne de la consommation énergétique finale après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) [kWh/m2/an] | int4 |
etat_renove_consommation_energie_estim_upper | Estimation haute de la consommation énergétique finale après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) [kWh/m2/an] | int4 |
etat_renove_consommation_energie_primaire_estim_lower | Estimation basse de la consommation d’énergie primaire après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) [kWh/m2/an] | int4 |
etat_renove_consommation_energie_primaire_estim_mean | Estimation moyenne de la consommation d’énergie primaire après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) [kWh/m2/an] | int4 |
etat_renove_consommation_energie_primaire_estim_upper | Estimation haute de la consommation d’énergie primaire après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) [kWh/m2/an] | int4 |
etat_renove_consommation_ges_estim_inc | Incertitude sur l’estimation de consommation de GES après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) [kgeqC02/m2/an] | int4 |
etat_renove_ges_estim_lower | Estimation basse des émissions de GES après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) [kWh/m2/an] | int4 |
etat_renove_ges_estim_mean | Estimation moyenne des émissions de GES après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) [kWh/m2/an] | int4 |
etat_renove_ges_estim_upper | Estimation haute des émissions de GES après un scénario de rénovation globale “standard” (isolation des principaux composants d’enveloppe et changement de système énergétique de chauffage) [kWh/m2/an] | int4 |
etat_renove_risque_canicule | (déprécié) Estimation du risque canicule après rénovation [1-5]. Voir indicateur de surchauffe bâtiment ISB_DH dans le jeux de données batiment_groupe_predictions_isb | int4 |
etat_renove_risque_canicule_inc | (déprécié) Incertitude de l’estimation du risque canicule après rénovation [1-5]. Voir indicateur de surchauffe bâtiment ISB_DH dans le jeux de données batiment_groupe_predictions_isb | int4 |
Données intermédiaires du calcul
Nom de la colonne | Description | type de données |
---|---|---|
volume_habitable | volume habitable du bâtiment [m3] | int4 |
volume_brut | Volume brut du bâtiment [m3] | int4 |
surface_facade_vitree | Estimation de la surface de façade vitrée [m²] | int4 |
surface_facade_totale | Estimation de la surface totale de façade (murs + baies) [m²] | int4 |
surface_facade_mitoyenne | Estimation de la surface de façade donnant sur un autre bâtiment [m²] | int4 |
surface_facade_ext | Estimation de la surface de façade donnant sur l’exterieur [m²] | int4 |
surface_enveloppe | Estimation de la surface de l’enveloppe [m²] | int4 |
surface_verticale | Estimation de la surface verticale du bâtiment [m²] | int4 |
surface_deperditive | Estimation de la surface déperditive du bâtiment [m²] | int4 |
surface_deperditive_verticale | Estimation de la surface déperditive verticale du bâtiment [m²] | int4 |
surface_toiture | Estimation de la surface de toiture du bâtiment [m²] | int4 |
sh | Estimation de la surface habitable du bâtiment [m²] | int4 |
local_simulations_dpe
Les étiquettes DPE estimées dans cette table sont une prédiction des étiquettes de chaque appartement situé dans un immeuble de logements collectifs.
Dans cette table on retrouve les mêmes indicateurs présents dans la table batiment_groupe_simulations_dpe
mais cette fois-ci calculés pour chaque position du logement.
Un indicateur supplémentaire “position_logement” est une estimation de la position du logement au sein du bâtiment : étage intermédiaire, sous un plancher haut déperditif (sous toiture) ou sur un plancher bas déperditif (rez de chaussée)
Colonnes supplémentaires par rapport à batiment_groupe_simulations_dpe
:
Nom de la colonne | Description | type de données |
---|---|---|
cstb_local_oid | identifiant local généré par auto incrément (anonyme), non persistant non signifiant | int4 |
local_id | identifiant du local dans les Fichiers Fonciers (Concaténation de ccodep, invar) | varchar(12) |
position_logement | Position du logement au sens de la simulation. Est-ce que le plancher haut et/ou bas du logement sont déperditifs ? (all_deper= plancher haut et bas déperditif, pb_deper = plancher bas déperditif, ph_deper = plancher haut déperditif, intermediaire = plancher bas et haut non déperditif) | text |
batiment_groupe_delimitation_enveloppe
Utilisée en entrée du calcul 3CL, la table batiment_groupe_delimitation_enveloppe
contient les colonnes suivantes
pour l’ensemble des groupes de bâtiment dotés de géométries :
Nom de la colonne | Description | type de données |
---|---|---|
batiment_groupe_id | Identifiant du groupe de bâtiment au sens de la BDNB | varchar |
code_departement_insee | Code département INSEE | varchar |
delimitation_enveloppe_dict | json contenant la description de l’ensemble des parois | text |
La colonne delimitation_enveloppe_dict
est un json
contenant pour chaque batiment_groupe_id
la liste de toutes les parois
extérieures constitutives d’un bâtiment (murs, planchers haut/bas).
Ces données sont calculées par traitement des emprises au sol des batiment_construction
extrudées par leur hauteur (géométries 2.5D).
Le calcul d’adjacence et de masquage solaire est estimé en prenant en compte les géométries 2.5D de l’ensemble des bâtiments environnants.
Les données sources (emprises au sol, hauteur) sont issues de la BD_TOPO.
Il s’agit d’une liste de dictionnaires avec les clés suivantes :
z0
: altitude au pied de la constructionazimuth
: orientation de la paroi. (N: 0 , E : 90 , S: 180 , W : 270 )hauteur
: hauteur (en m) de la face (0 pour les parois horizontales)inclination
: 90-> vertical. 0 -> orienté vers le bas (sol). 180: orienté vers le haut (plancher haut)cat_adj
: type d’adjacence de la paroi. “adjacent” : touche une autre paroi (mur mitoyen). “non_adjacent” : en contact avec l’ambiance extérieurewall_type
: type de paroi [floor | roof | vertical]wall_id
: identifiant de la paroiarea
: surface de la paroi (m²)perimeter
: périmètre de la paroi (en m)shading_mask_36
(ARRAY): “Masque solaire : Elevation de l’occultation par tranche de 10° à partir de l’azimuth 0 (Sud)”
Fiche méthode
Nos prédictions ont pour objectifs :
- d’estimer les performances probables à l’échelle d’un logement si celui-ci ne dispose pas d’un DPE récent
- de donner une image fidèle des performances globales du parc existant d’un point de vue statistique
- d’être capable d’estimer l’incertitude des prédictions sur chaque bâtiment
- d’être capable d’estimer les gestes d’amélioration probables pour chaque bâtiment et d’en estimer le gisement
- d’être robuste aux changements de méthodes de calcul des DPE, et ainsi fournir un laboratoire d’expérimentation aux pouvoirs publics
Remplir ces objectifs n’est pas atteignable avec une approche purement data, qui consisteraient en une simple tache de classification supervisée des lettres des étiquettes. Outre les classes énergie et carbone, nous cherchons à connaitre le niveau de performance du bâti, la nature des systèmes présents ou à évaluer l’efficacité de telle ou telle politique de rénovation, tout cela en restant cohérent à l’échelle d’un même bâtiment ou au niveau national.
Nos prédictions sont donc réalisées au niveau des performances de l’enveloppe et de la description des systèmes, qui sont à leur tour utilisées, avec les métrés issus de la BDNB, pour réaliser un calcul DPE et ainsi obtenir une classe. Cette méthode est illustré sur la figure suivante :

Enfin, les prédictions des DPE sont réalisées pour deux situations :
- dans l’état actuel présumé du logement
- après une rénovation globale du logement
Les figures suivantes montrent les performances du modèle par validation croisée sur un échantillon de 87 000 DPE.
🕮 Validation croisées
Pratique visant à évaluer la performance d’un modèle sur des données qui n’ont pas été vue pendant l’apprentissage, c’est-à-dire sa capacité à généraliser.
Ici, on compare les résultats de prédictions obtenues sans utiliser aucune donnée DPE par rapport aux DPE ADEME. L’évaluation évalue de bout en bout la procédure de prédiction :
- inférence des performances de l’enveloppe et des systèmes (sans aucune information des DPE ADEME)
- le calcul des métrés et des masques solaires à partir des géométries de la BDNB
- le calcul DPE avec le moteur DPE BDNB
Moteur de calcul DPE BDNB
Nous avons développé un moteur de calcul adapté au niveau de données disponible.
- Le calcul du DPE repose sur des données d’entrée simplifiées (issues des DPE ADEME quand ils sont présents ou à partir de données prédites), tout en conservant les hypothèses et équations principales de la méthode DPE réglementaire conventionnelle 3CL-DPE 2021.
- Le calcul est réalisé à l’échelle d’un groupe de bâtiments. La méthode DPE immeuble est utilisée pour les logements collectifs.
- Les surfaces déperditives (murs, planchers, ponts thermiques) et masques solaires sont estimés à partir de la géométrie du groupe de bâtiments et de ses voisins.
Hypothèses principales :
- Rendements médians utilisés pour les systèmes de chauffage et d’ECS.
- Limitation à 2 générateurs maximum pour les installations.
- Répartition homogène des vitrages sur les façades extérieures.
Métrés et masques solaires pour le calcul DPE BDNB
Les métrés utilisés pour le calcul DPE BDNB (surfaces donnant sur l’extérieur, ponts thermiques, ombrage) sont estimés à partir des géométries BDNB (emprises au sol et hauteur, calcul de mitoyenneté des bâtiments). La validation de l’estimation des métrés est réalisée en recalculant les DPE ADEME avec ces métrés et le moteur DPE BDNB.
La figure suivante compare les consommations en énergie primaire des DPE ADEME avec celles obtenues par notre approche sur les mêmes DPE pour 2,1 millions de groupes de bâtiment. Non seulement la distribution des consommations en énergie primaire est préservées, mais elle gomme les effets de seuils constatés sur les DPE réels.
répartition des classes DPE sur le parc résidentiel
Dans la figure ci-dessous, la répartition des DPE ADEME pour 2,1 millions de groupes de bâtiments (0,6 M d’immeubles collectifs et 1,5 M de maisons individuelles), représentant 12,2 millions de logements, est comparée aux DPE recalculés avec le moteur DPE BDNB ainsi qu’aux prédictions DPE sur l’ensemble du parc résidentiel.
Les écarts observés s’expliquent principalement par l’absence d’effet de seuil dans notre modélisation, conduisant à une proportion plus élevée de logements classés F et G par rapport aux DPE ADEME.

NB : les DPE ADEME selectionnés sont ceux réalisés avec une méthode 3CL conventionelle (logement existant) avec une version >= 2.1 (après février 2022)
NB2 : les résultats concernent l’ensemble du parc résidentiel incluant les résidences principales, secondaires et logements vacants
Estimation de l’état après rénovation globale
En plus de la prédiction des performances énergétiques initiales du bâtiment, nous sommes en mesure d’estimer l’impact d’une rénovation globale en appliquant des gestes de rénovation sur chacun des grands postes d’enveloppe et sur les systèmes de chauffage et d’eau chaude sanitaire. Ce scénario de rénovation reprend les exigences minimales sur les éléments d’isolations d’enveloppe du label BBC rénovation. Sur les systèmes énergétiques, il est fait l’hypothèse d’une conversion systématique des systèmes existants vers des pompes à chaleurs. Ce scénario de rénovation est un potentiel “maximum” de rénovation, car il ne prend pas en compte les contraintes technico-économiques ou d’urbanismes d’application de ces gestes de rénovation.
🕮 hypothèses de rénovation globale
Enveloppe (exigences BBC rénovation)
- murs extérieurs : U = 0.21 W/m²/K - R = 4.4 m².K/W ~ 17 cm d’isolant (isolation thermique par l’extérieur)
- plancher haut : U = 0.14 W/m²/K - R = 6.5 m².K/W ~ 26 cm d’isolant
- plancher bas : U = 0.23 W/m²/K ~ 15 cm d’isolant
- baies vitrées : Uw = 1.3 W/m²/K fenêtre battante 4/16/4 double vitrage peu émissif argon
- ventilation : installation d’une VMC Simple Flux hygroréglable
Système de chauffage
- les chaudières (chaudière gaz, fioul, etc.) sont changées en pompe à chaleur air/eau
- les systèmes individuels sans réseau de distribution (chauffage électrique, poêle à bois) sont remplacés par des pompes à chaleur air/air
- les réseaux de chaleur sont inchangés.
Système d’ECS
- Pour tous les systèmes hors réseaux de chaleur, une transition est réalisée vers un chauffe-eau thermodynamique ou un système solaire pour la production d’eau chaude
Calcul des étiquettes DPE appartement (table local_predictions_dpe)
En complément de la prédiction des performances énergétiques à l’échelle du groupe de bâtiments à l’aide d’une méthode dite “DPE immeuble”, nous proposons également un calcul pour chaque appartement.
En effet, pour un même immeuble, les appartements qui le composent peuvent présenter une certaine diversité dans leurs étiquettes DPE. Il est important de pouvoir estimer cette diversité, car cela a des impacts significatifs sur les stratégies de rénovation et les obligations réglementaires de ces logements. Il est tout à fait possible d’avoir plusieurs logements passoire énergétique (F ou G) dans des immeubles dont l’étiquette immeuble est D ou E par exemple. Identifier la proportion de logements F,G au sein de chaque immeuble et leur position permet de planifier des travaux de rénovations ciblés comme une isolation de la toiture pour faire sortir ces logements F etG de l’état de passoire énergétique.
Si l’on considère les éléments performanciels comme identique pour les appartements dans un même immeuble (isolation, performance des systèmes), la variabilité des performances énergétiques des appartements au sein d’un même immeuble est principalement due à leur disposition dans l’immeuble et leur taille. En effet, dans le cas d’un DPE appartement situé au dernier étage, la surface déperditive inclut les murs extérieurs et toute la surface du plancher haut. En revanche, un logement en étage intermédiaire ne comptabilise que les murs extérieurs comme surface déperditive. Ainsi, les logements situés en étage intermédiaire obtiennent généralement de meilleures étiquettes DPE que ceux situés au dernier étage.

La disposition des logements et leur orientation au sein d’un même étage peut entraîner aussi des variations fortes d’étiquettes, nous ne dispons pas toutefois d’informations suffisantes aujourd’hui pour modéliser cette variabilité correctement
🕮 la prédiction des étiquettes DPE appartement à l’intérieur d’un immeuble
- est basé sur le calcul réalisé à l’immeuble
- évaluation de la position de chaque logement (RDC, étage intermédiaire, dernier étage)
- calcul des déperditions de plancher haut et de plancher bas pour chaque logement en fonction de sa position d’étage
- au sein d’une même catégorie d’étage les déperditions hors plancher haut et bas sont uniformes (non prise en compte de l’hétérogénéité de disposition des logements au sein d’un même étage)
- la surface du logement est utilisée pour calculer les besoins conventionnels en eau chaude sanitaire de l’appartement
Concernant l’hétérogénéité des étiquettes liées à la taille des appartements, celle-ci a été significativement réduite depuis l’introduction de nouveaux seuils réglementaire pour les appartements de petites surfaces <40m² depuis le 1er juillet 2024. Nos prédictions DPE prennent en compte ces nouvelles règles de seuils pour les appartements de petites surfaces et proposent donc des estimations DPE actualisées avec cette nouvelle évolution réglementaire.
Les résultats sont disponibles dans la table local_simulations_dpe
.
Prédictions des performances thermiques pour le calcul DPE BDNB
Les performances présumées actuelles de l’enveloppe et des systèmes de chaque bâti sont tirées des DPE de l’ADEME rattachés à ce bâtiment,
s’il en existe. En l’absence de DPE de l’ADEME ou de DPE incomplet (par exemple, absence de performance de la toiture),
les performances manquantes sont prédites en utilisant un modèle génératif d’apprentissage machine supervisé.
Ce modèle est baptisé bat2vec-Energie
. Ce modèle génératif probabiliste est utilisé pour tirer
100 échantillons Monte Carlo pour chaque bâtiment à usage résidentiel, ce qui permet d’évaluer l’incertitude des prédictions
des DPE pour chaque bâtiment par propagation d’incertitude.
🕮 Propagation d’incertitude
La propagation d’incertitude désigne le processus par lequel les incertitudes associées aux variables d’entrée d’un modèle ou d’un calcul se répercutent sur les résultats de ce dernier. Elle vise à quantifier comment les erreurs, approximations, ou variabilités dans les données ou les paramètres initiaux influencent les prédictions ou estimations produites.
Architecture du modèle de prédiction bat2vec-Energie

bat2vec-Energie
est un modèle d’apprentissage profond (deep learning) qui combine l’architecture des auto-encodeurs variationnels
conditionnels (conditional variational auto-encoder, ou CVAE
) avec l’architecture transformer popularisé dans
les grands modèles de langage (LLM
). Il est entrainé avec une stratégie de reconstruction (imputation) des données
masquées. Comme tous les VAE (et CVAE), il s’agit par construction d’un modèle génératif probabiliste, c’est-à-dire qu’il est utilisé pour tirer un
échantillon probable dans une distribution conditionnée par les entrées du modèle. Il est similaire dans son approche
aux modèles de génération de données synthétiques utilisés dans l’industrie médicale pour l’imputation de données manquantes et
l’anonymisation des données de santé. Pour plus de contexte sur les stratégies d’imputation de données tabulaires dans la littérature,
le lecteur peut se référer la revue 3.
La partie encodage du CVAE est constituée d’un transformer qui opère sur les données tabulaires en entrée, elles-mêmes transformées par embedding catégoriel (categorical embedding).
La partie transformer repose sur les architectures TabTransformer
4 et FTTransformer
5.
L’utilisation de modèles d’apprentissage profond est en rupture avec les réseaux bayésiens qui étaient utilisés historiquement pour la prédiction des DPE BDNB (millésime 2023-11 et antécédents). Ils remplissent néanmoins une tâche complètement analogue, dont les objectifs décrits ici 6 restent d’actualité.
Ce modèle est entrainé à reconstruire les performances du DPE étant données des performances partielles ou manquantes ainsi que des données contextuelles au bâtiment (les features du modèle).
Les données contextuelles sont les entrées obligatoires du modèle, supposées connues :
Variable | Description |
---|---|
code_departement_insee | Code département selon l’INSEE |
usage_niveau_1_txt | Description de l’usage du bâtiment (niveau 1) |
usage_niveau_2_txt | Description de l’usage du bâtiment (niveau 2) |
nb_niveau | Nombre de niveau du bâtiment |
mat_toit_txt | Matériau de la toiture |
mat_mur_txt | Matériau des gros murs |
hauteur_mean | Hauteur moyenne du bâtiment |
altitude_sol_mean | Altitude du bâtiment |
s_log | La surface habitable totale du bâtiment |
annee_construction | Année de construction |
nb_log | Nombre de logements du bâtiment |
ratio_hlm | Ratio du nombre de logements HLM dans le bâtiment |
ratio_location | Ratio du nombre de logements loués dans le bâtiment |
ratio_vacance | Ratio du nombre de logements vacants dans le bâtiment |
ratio_residence_secondaire | Ratio du nombre de résidences secondaires dans le bâtiment |
Les données reconstruites peuvent être partiellement ou intégralement manquantes. Dans le cas où aucun DPE de l’ADEME n’est présent, elles sont toutes manquantes. Dans le cas où un ou plusieurs DPE existent, mais où certaines données restent manquantes, les données existantes sont utilisées pour prédire celles qui sont manquantes. Le cas de figure le plus courant sont les données absentes du DPE dans certains logements en fonction de leur position dans le bâtiment, comme la performance thermique du plancher haut (lié à l’isolation sous toiture). Le modèle de reconstruction se comporte comme un algorithme d’imputation, comblant les trous dans les données quand il y en a, tirant profit de l’ensemble des données existantes pour ce faire.
La liste des données reconstruite est la suivante :
Variable | Description | Nombre de modalités |
---|---|---|
u_mur_exterieur | Coefficient de transmission thermique moyen des murs extérieurs (W/m²/K) | - |
u_plancher_haut_deperditif | Coefficient de transmission thermique moyen des planchers hauts (W/m²/K) | - |
u_baie_vitree | Coefficient de transmission thermique moyen des baies vitrées en incluant le calcul de la résistance additionnelle des fermetures (calcul Ujn) (W/m²/K) | - |
uw | Coefficient de transmission thermique moyen des baies vitrées sans prise en compte des fermeture (W/m²/K) | - |
facteur_solaire_baie_vitree | facteur de transmission du flux solaire par la baie vitrée. coefficient entre 0 et 1 | - |
pourcentage_surface_baie_vitree_exterieur | pourcentage de surface de baies vitrées rapportée à la surface totale des murs extérieurs | - |
type_installation_chauffage | type d’installation de chauffage (collectif ou individuel) | 2 |
type_generateur_chauffage | type de générateur de chauffage principal | 25 |
type_installation_ecs | type d’installation d’eau chaude sanitaire (ECS) (collectif ou individuel) | 2 |
type_generateur_ecs | type de générateur d’eau chaude sanitaire (ECS) principal | 19 |
type_ventilation | type de système de ventilation du logement | 13 |
classe_inertie | classe d’inertie pour le DPE (de légère à très lourde) | 4 |
type_isolation_mur_exterieur | type d’isolation principal des murs donnant sur l’extérieur pour le DPE | 9 |
type_isolation_plancher_haut | type d’isolation principal des planchers hauts déperditifs pour le DPE | 9 |
type_isolation_plancher_bas | type d’isolation principal des planchers bas déperditifs pour le DPE | 8 |
type_fermeture | type de fermeture principale installée sur les baies vitrées du DPE (volet,persienne etc..) | 8 |
traversant | indique si le logement est traversant (ventilation naturelle) | 5 |
Le modèle est entrainé sur 2,3 millions de DPE qui ont été filtrés avec les critères suivants :
- les données sont opposables, c’est-à-dire qu’elles ont été collectées après la dernière réforme du DPE (arrêté 2021)
- les données saisies ne présentent pas d’incohérences
- les données saisies sont cohérentes avec d’autres sources BDNB (exemple : période de construction)
- soustraction des DPE “neufs” qui reposent sur une méthode de calcul différente
Le détail des données de prédiction France entière est disponible en format parquet. Il contient 2 milliards de lignes (20M de groupes de bâtiment fois 100 tirages).
Disponible sur demande pour les utilisateurs de la BDNB Expert (fichier prediction_enveloppe_et_systemes.pqt
).
Estimation de la qualité du modèle par validation croisée pour les données de performance de l’enveloppe
La validation croisée est réalisée sur un échantillon de 87k observations qui recouvrent la quasi-totalité des départements de l’héxagone.

Le modèle parvient à prédire les performances sans introduire de biais dans les distributions de chacune des variables.
Réferences
Chiffres clés du logement – Édition 2022, Le service des données et études statistiques (SDES, CGDD, MTE) ↩︎
M Pellan, M Louërat, J El Beze and G Habert. ”A holistic perspective on the French building and construction GHG footprint”. IOP Conference Series: Earth and Environmental Science, Volume 1078, sbe22 Berlin D-A-CH conference: Built Environment within Planetary Boundaries (SBE Berlin) 20/09/2022 - 23/09/2022 Berlin ↩︎
Fonseca, J., Bacao, F. Tabular and latent space synthetic data generation: a literature review. J Big Data 10, 115 (2023). https://doi.org/10.1186/s40537-023-00792-7 ↩︎
Xin Huang, Ashish Khetan, Milan Cvitkovic, & Zohar Karnin. (2020). TabTransformer: Tabular Data Modeling Using Contextual Embeddings. https://paperswithcode.com/method/tabtransformer ↩︎
Yury Gorishniy, Ivan Rubachev, Valentin Khrulkov, & Artem Babenko. (2023). Revisiting Deep Learning Models for Tabular Data. https://arxiv.org/pdf/2106.11959v2 ↩︎
Schetelat, P., L. Lefort, and N. Delgado. ”Urban data imputation using multioutput multi-class classification.” In Proceedings of uSim Conference 2020: 2nd uSim Conference of IBPSA-Scotland, 2:126–133. uSim Conference. Edinburgh, Scotland: IBPSA-Scotland, November 2020 ↩︎