Enquêtes et données administratives

Enquêtes et données administratives : deux sources, un même objectif ?

Les données sont au cœur de la statistique publique. Elles permettent d’éclairer les décisions de chacun et chacune, de suivre les évolutions économiques et sociales ou encore d’évaluer l’impact des politiques publiques. Historiquement, les enquêtes ont constitué la principale source de données pour répondre à ces questions. Aujourd’hui, les administrations disposent d’une quantité croissante d’informations sur les individus et les entreprises, à travers notamment le Registre national, les bases de données de la Banque-Carrefour de la Sécurité Sociale, les fichiers fiscaux du SPF Finances ou encore la Banque-Carrefour des Entreprises. Face à cette richesse de données administratives, une question se pose : pourquoi réalise-t-on encore des enquêtes ? À l’inverse, pourquoi utiliser des données administratives alors que les enquêtes existent déjà ? Cet article propose d’examiner les spécificités des données d’enquête et des données administratives, avant de mettre en avant leur complémentarité pour analyser des phénomènes socio-économiques.

1. Définitions et caractéristiques

1.1. Les données d’enquête : des informations ciblées et comparables

Les données d’enquête sont conçues pour répondre à des besoins statistiques précis sur des phénomènes récents, avec des méthodologies rigoureuses et, quand il s’agit d’une obligation européenne, comparables entre Etats membres. Elles reposent sur un échantillon représentatif de la population ou des entreprises et permettent de mesurer des aspects variés : conditions de vie, consommation, emploi, chiffre d’affaires, etc.

Le principal atout des enquêtes est leur flexibilité : elles sont conçues pour collecter des informations précises qui ne sont pas disponibles dans d’autres sources. Elles permettent   notamment d’intégrer des notions subjectives (bien-être, opinions, satisfaction, etc.) ou des phénomènes mal couverts par les bases de données administratives (travail non déclaré, exclusion numérique, etc.). Elles garantissent aussi une comparabilité européenne : les enquêtes réalisées par les instituts de statistique respectent des méthodologies harmonisées définies par Eurostat, assurant ainsi des indicateurs cohérents entre pays et dans le temps. La cohérence des indicateurs est également garantie, sur le terrain, par la présence d’enquêteurs et d’enquêtrices chargé·es d’expliciter certaines questions et faciliter la collecte d’information[1]. Sur le plan méthodologique, elles s’appuient sur la théorie des sondages, qui permet de produire des estimations fiables à partir d’un échantillon. Des techniques comme la pondération et l’extrapolation assurent une représentativité robuste.

Toutefois, les enquêtes présentent plusieurs contraintes. Elles sont coûteuses en raison de la collecte sur le terrain, et représentent une charge pour les répondant·es. Une enquête se réalise sur un échantillon avec de la non-réponse[2]. Les indicateurs sont donc sujets à un certain degré d’incertitude. De plus, certains groupes sont sous-représentés (populations précaires, jeunes, ménages mobiles, microentreprises, etc.), nécessitant des ajustements statistiques. La pondération de l'enquête vise à corriger autant que possible ce phénomène mais n’assure pas une représentativité absolue ni la fiabilité à un niveau géographique très fin. Enfin, les enquêtes sont ponctuelles : une enquête trimestrielle sur l’emploi ne permettra par exemple pas de suivre les évolutions mensuelles avec la même précision que des bases administratives mises à jour en temps réel.

1.2. Les données administratives : une réponse aux limites des enquêtes ?

Face aux limites des enquêtes, et suite à l’application de la loi Only Once (une administration publique ne doit pas poser une nouvelle fois la question à un usager lorsque l’information aurait déjà été transmise à une autre administration), l’exploitation des données administratives s’est développée dans les instituts statistiques. Produites dans le cadre de la gestion des politiques publiques (impôts, état civil, prestations sociales, sécurité sociale, etc.), ces données sont collectées en continu et couvrent l’ensemble de la population concernée.

L’un des principaux atouts des données administratives est leur exhaustivité : elles concernent toute la population et ne sont pas soumises aux biais d’échantillonnage ou de non-réponse. Elles permettent ainsi de produire des statistiques précises à des niveaux très fins (sous population, zone géographique). Certaines sources offrent également une plus grande régularité : mises à jour régulièrement, elles permettent de suivre l’évolution de certains indicateurs sans attendre une nouvelle enquête. Un autre avantage majeur est leur structure légale : chaque variable repose sur une définition claire et stable, définie par le cadre réglementaire (par exemple, le revenu imposable, l’accès à une aide sociale). Cette stabilité facilite les comparaisons dans le temps et, lorsque cela est possible, un couplage de plusieurs sources administratives permet d’étendre encore les analyses. Enfin, leur coût marginal de collecte est faible : ces données existent déjà, elles n’ont pas besoin d’être recueillies spécifiquement pour la statistique publique.

Malgré ces avantages, les données administratives posent aussi plusieurs problèmes. D’abord, elles ne sont pas conçues pour la statistique, mais pour la gestion administrative. Cela peut entraîner des biais de couverture : certaines catégories de population ou d’entreprises peuvent être mal recensées (travail informel, personnes sans interaction avec l’administration, etc.). Ensuite, elles ne couvrent pas toutes les dimensions d’analyse, de plus avec des définitions pouvant différer des concepts souhaités. Elles fournissent des informations factuelles, mais rarement des perceptions ou des opinions[3]. L’accès à ces données est aussi un défi : bien que collectées par des administrations publiques, elles peuvent être difficiles d’accès en raison de restrictions juridiques et techniques, et la durée d’obtention des données est, selon les cas, plus long que lors des enquêtes. Enfin, leur définition peut évoluer avec les réformes administratives, rendant parfois difficile la comparaison historique des statistiques.

2. Différences et complémentarités

Si les données d’enquête et les données administratives offrent chacune des avantages et des inconvénients, elles ne s’opposent pas pour autant. Elles répondent à des logiques différentes et peuvent être utilisées de manière complémentaire pour améliorer la qualité des statistiques publiques. D’une manière générale, les forces de l’un correspondent aux faiblesses de l’autre. Les enquêtes permettent de mesurer des concepts qui ne figurent pas dans les bases administratives (bien-être, opinions, unité économique, formation continue, etc.). En revanche, elles sont limitées en termes d’exhaustivité et de fréquence. À l’inverse, les données administratives couvrent toute la population et sont mises à jour régulièrement, mais ne permettent pas d’explorer des aspects subjectifs ou comportementaux.

Critère Données d’enquête Données administratives
Objectif de collecte Répondre à des besoins statistiques spécifiques Gérer des politiques publiques et des services administratifs
Exhaustivité Échantillon représentatif Population exhaustive ou large sous-population
Nature des informations Variables subjectives et comportementales (notamment) Variables factuelles et administratives (uniquement)
Périodicité Ponctuelle (annuelle, pluriannuelle) Selon les cas
Coût de production Élevé (collecte, analyse) Réduit (réutilisation de données existantes)
Comparabilité internationale Forte, grâce aux standards Eurostat Variable selon les législations nationales
Fiabilité des définitions Standardisée mais déclarative Définie par des cadres légaux mais évolutive

À Statbel, nous évaluons régulièrement la pertinence des sources administratives en tant que complément ou alternative à certaines questions de nos enquêtes. Lorsqu'une telle possibilité se présente, une analyse statistique approfondie est menée en comparant des résultats, pour des périodes similaires, issus à la fois de données d’enquête et de données administratives. Un appariement par individu ou entreprise est réalisé afin d’identifier les divergences au niveau des microdonnées et de déterminer les raisons de celles-ci. En parallèle, une analyse comparative globale est effectuée pour confronter les indicateurs issus des sources administratives à ceux obtenus par extrapolation des données d’enquête. Cette démarche permet de mettre en évidence les écarts de couverture entre les sources, ainsi que d’éventuelles différences dans la définition des concepts et des unités statistiques.

Lorsque l’analyse est concluante, la source administrative est souvent intégrée dans le processus statistique pour être utilisée en remplacement, ou plus souvent en complément de la donnée d’enquête[4]. Voici deux exemples actuels :

  • Après une analyse fine (disponible ici) des différences entre l'enquête SILC et les données fiscales transmises par le SPF Finance, Statbel a décidé d'utiliser, depuis 2019, ces dernières en remplacement des questions posées aux ménages relatives au revenu ;
  • Statbel utilise deux principales sources pour mesurer le niveau d'instruction de la population belge : le recensement de la population basé sur des données administratives depuis 2011 (Census) et l’enquête sur les forces de travail (EFT), une enquête par sondage menée trimestriellement. Chacune de ces sources dispose de ses avantages et limites concernant le niveau d’instruction : nous recommandons d’utiliser l’EFT si l’on veut des données comparables au niveau européen et le Census pour des analyses détaillées au niveau local ou pour croiser des variables administratives. Le rapport complet.

L’évolution des méthodes statistiques et des technologies de traitement des données permet aujourd’hui d’envisager des modèles hybrides où enquêtes et bases administratives se renforcent mutuellement. L’objectif n’est pas de remplacer les enquêtes par des données administratives, mais de tirer parti des atouts de chaque source pour produire des indicateurs plus précis, plus fréquents et mieux contextualisés. D’ailleurs, les données administratives sont également utilisées depuis longtemps, à un niveau agrégé, comme marges d’extrapolation afin d’améliorer la qualité des indicateurs issus d’enquête. L’un des enjeux majeurs reste toutefois la qualité et l’accessibilité des données administratives : leur exploitation à des fins statistiques doit, comme pour les données d’enquêtes, respecter des principes de protection des données et de comparabilité. De plus, il est essentiel que les définitions administratives restent adaptées aux besoins de l’analyse socio-économique. Pour cela, il est indispensable de créer des liens entre les statisticiens et les différentes administrations à la source des données[5]. Dans ce contexte, l’enquête reste un outil incontournable pour compléter et valider les données administratives, en garantissant une approche plus riche des phénomènes étudiés.

 

 


[1] Statistics Canada (2021). Section 2.2. Type de données. Dans Les statistiques : le pouvoir des données!

[2] La non-réponse peut provenir de difficultés à contacter certains profils, générant ainsi un biais de non-réponse à corriger. La non-réponse peut aussi être aléatoire (non disponibilité ponctuelle, réponses incomplètes) générant une imprécision sur les indicateurs.

[3] Par exemple, on sait combien un ménage perçoit d’allocations, mais pas comment il évalue sa situation financière. De même, on obtient le statut administratif d’emploi d’un individu, mais on ignore s’iel est disponible dans les 15 jours pour accepter un nouvel emploi.

[4] Lire à ce sujet le courrier des statistiques n°9 (2023) de l’INSEE au sujet de l’intégration des données administratives dans un processus statistique

[5] Desrosières, A. (2008). Chapitre 5, paragraphe 21. Enquêtes versus registres administratifs : les deux sources de la statistique publique. Dans Gouverner par les nombres. Presses des Mines.