Statbel, big data et respect de la vie privée

Table of Contents

    Le défi

    Les big data, comme les scanner data, les données de téléphonie mobile ou les données satellitaires offrent à Statbel la possibilité de produire plus rapidement des statistiques publiques de meilleure qualité pour les citoyens, les entreprises et le monde politique. Les big data sont toutefois souvent des données à caractère personnel et de nombreuses personnes sont dès lors inquiètes d’une éventuelle atteinte à la vie privée.

    Cette crainte doit être prise au sérieux mais peut-être apaisée par une meilleure compréhension du cadre légal strict dans lequel Statbel opère et des procédures et méthodes de travail concrètes qui garantissent que les données sont et restent anonymes et sont utilisées exclusivement pour des statistiques anonymes et groupées et - dans certains cas et moyennant pseudonymisation - pour effectuer des recherches scientifiques.

    Les big data sont nécessaires

    Les décisions politiques ne peuvent être prises aveuglément. Les entreprises doivent décider en connaissance de cause et les citoyens doivent être bien informés. Les sources de données traditionnelles de Statbel, comme les enquêtes et l’exploitation de données administratives, ont leurs limites. Les big data, qui ont bien sûr aussi leurs contraintes, permettent de produire des statistiques de manière plus moderne et intelligente, qui sont plus détaillées et disponibles plus rapidement avec un coût beaucoup plus faible sans que l’on doive importuner les citoyens ou les entreprises, même pour des choses qu’il était impossible d’analyser auparavant.

    Exemples de possibles applications futures.

    Une meilleure matrice du lieu de résidence-lieu de travail

    La matrice domicile-lieu de travail montre où vont travailler les personnes qui habitent à un certain endroit. Cette information est importante pour la mobilité, l’infrastructure publique et les politiques dans le domaine du marché de l’emploi par exemple.  La statistique actuelle, au niveau communal et sur la base des registres de la population et de l’ONSS, pourrait être remplacée par une matrice basée sur les données de la téléphonie mobile au niveau des quartiers qui serait disponible beaucoup plus rapidement et à une fréquence beaucoup plus élevée. Pour cela, Statbel ne doit pas recevoir de données individuelles des opérateurs de télécommunications mais uniquement le résultat d’une sélection convenue et les calculs sur ces résultats.

    Il existe des lois et des règles strictes...

    Tant pour sa collecte de données traditionnelle que pour ses big data, Statbel est soumis à la législation belge et européenne qui stipule que les données ne peuvent être collectées que pour produire des statistiques anonymes et groupées et que la confidentialité des données (à caractère personnel et autres) doit être strictement garantie.

    De plus, la législation européenne et belge relative à la protection de la vie privée régule l’utilisation des données à caractère personnel mais autorise le stockage et le traitement à des fins statistiques sous certaines conditions.

    ... Qui sont aussi appliquées concrètement

    Statbel applique une séparation stricte entre, d’une part, la collecte de données, qui ‘pseudonymise’ immédiatement les données entrantes en remplaçant chaque donnée d’identification par un code et, d’autre part, le traitement statistique qui travaille uniquement avec des données pseudonymisées. Les résultats statistiques qui sont diffusés ne sont jamais individuels ou personnels mais toujours groupés, de telle manière que les données individuelles ne peuvent être déduites par combinaison.

    Ces procédures de traitement sont complétées par une structure de base de données sécurisée, tant au niveau physique que des procédures.

    Un pas plus loin: la vie privée dès la conception

    Ni la législation, ni la pratique en matière de respect de la vie privée ne sont spécifiques aux big data. Les big data offrent toutefois la possibilité d’aller plus loin dans la protection des données via ce que l’on appelle la ‘vie privée dès la conception’. C’est la manière dont Statbel souhaite travailler, maintenant et à l’avenir. Dans ce cas, la vie privée dès la conception signifie que les données individuelles ne quittent pas le datawarehouse du propriétaire (p. ex. un opérateur de télécommunications) mais qu’une query et/ou un calcul convenu est divulgué et que seul son résultat est fourni. Ce genre de traitement peut être effectué de telle manière que le résultat soit totalement anonyme et non individuel. Cela évite tout problème de respect de la vie de privée et a comme gros avantage complémentaire que le fichier de données livré est d’une taille nettement plus réduite et donc plus facile à utiliser.

    Conclusion

    Statbel ne s’intéresse pas aux données personnelles en soi mais aux résultats statistiques pertinents, fiables et précis qui sont indispensables pour que les citoyens, les entreprises et les décideurs politiques prennent des décisions. Les données personnelles et les autres données individuelles sont protégées par des dispositions légales strictes qui sont mises en œuvre dans la pratique pour l’utilisation, le stockage, la combinaison et l’accès. Cette protection concrète des données est déterminée et documentée au niveau physique, organisationnel et des procédures. Elle est mise en pratique.

    Dans le cas des big data, il est souvent inutile d’obtenir des données individuelles (et même souvent pas possible ou pratique vu les volumes énormes que ces données représentent), ce qui garantit la protection de la vie privée.