Explications relatives aux Big Data (données massives)

Les données massives ouvrent de nouvelles perspectives de connaissances aux sciences économiques et sociales et fournissent une autre forme de création de valeur aux entreprises. Cependant, elles peuvent aussi menacer la sphère privée, par exemple quand les données traitées ne sont pas anonymisées ou qu'elles ne le sont qu'insuffisamment. Lorsque le traitement porte sur des données liées à des personnes, le droit à la sphère privée et la protection des données personnelles doivent être garantis.

Introduction

Avant même les dernières révélations concernant les quantités astronomiques de données que divers services de renseignement ont collectées, enregistrées et analysées, le thème des Big Data, à savoir les données massives (on trouve également le néologisme de « datamasse », calqué sur « biomasse ») a attiré l'attention du public. Le recours quotidien aux services de télécommunication et aux services en ligne, aux équipements électroniques, aux cartes de débit et de crédit, les achats, la consommation d'électricité, etc., génèrent d'énormes quantités de données, auxquelles s'ajoutent celles que les autorités publient conformément au mandat que leur confère la loi ou dans le cadre de projets d'ouverture de données publiques (Open Data). Cette mine d'informations est exploitée par différents acteurs qui en font (également) une utilisation commerciale. Au point de vue économique, les données massives présentent un potentiel considérable. D'après certaines estimations, le volume de données stockées à travers le monde sera multiplié par au moins quarante d'ici à 2020.

Que faut-il entendre par Big Data?

La notion de « Big Data » se réfère à une grande quantité de données provenant de sources diverses et qui sont saisies et enregistrées grâce à des systèmes de traitement à très haut débit, en vue de permettre leur exploitation et leur analyse sans but prédéterminé et sans limite de temps. Ces procédures de traitement intensives ont été rendues possibles par les progrès technologiques, qui ont permis d'accélérer considérablement l'enregistrement et l'exploitation d'immenses quantités de données, tout en réduisant fortement le coût de ces opérations. Rien de plus facile, désormais, que de conserver des données pour une durée indéterminée en vue de leur réutilisation ultérieure à quelque fin que ce soit. Des méthodes et des techniques développées récemment permettent d'analyser et d'interconnecter facilement de très grandes quantités de données. Pour ce faire, on leur applique des algorithmes qui permettent de mettre en évidence de nouveaux paradigmes, similitudes, liens ou divergences.

Pour l'essentiel, les données massives peuvent se résumer par les quatre caractéristiques dites des quatre « V », en raison de leur désignation en anglais : 

Les Big Data représentent de grosses quantités de données (Volume), traitées à grande vitesse (Velocity). Leur troisième caractéristique est la diversité ou l'hétérogénéité (Variety) des données. Les Big Data offrent de nouvelles possibilités de combiner entre elles de données provenant de sources différentes qui n'étaient pas corrélées jusqu'ici. C'est ainsi qu'il est possible de mettre en relation des données enregistrées dans un fichier clients interne avec des données externes provenant de réseaux sociaux, de moteurs de recherche, de feuilles d'avis officielles ou de portails de données ouvertes gérés par des autorités publiques. Enfin, la quatrième caractéristique des Big Data est celle de la plus-value (Value) que l'analyse des données est censée produire.

Potentiel et risques liés aux données massives

Les Big Data sont parfois qualifiées de « nouvel or noir » ou de « mine d'or », du fait qu'elles permettent d'utiliser des informations non structurées et hétérogènes en les liant et en les exploitant, ce qui en fait une source de nouvelles connaissances pour les sciences économiques et sociales, aussi bien que de formes inédites de création de valeur pour les entreprises commerciales. Les champs d'application privilégiés sont par exemple les études de marché automatisées et rapides capables de réagir instantanément aux moindres modifications, la découverte d'abus concernant des transactions financières, les analyses web en vue d'étendre et d'optimiser des campagnes de marketing en ligne, les diagnostics médicaux approfondis et les recherches par quadrillage ou par profilage pour le compte de services de renseignement ou de police.

Toutefois, les données massives peuvent également constituer une sérieuse menace pour la sphère privée lorsque des informations concernant divers aspects de la vie d'un même individu sont collectées et exploitées de manière systématique et structurée. Un assureur pourra par exemple refuser des prestations si l'analyse des données de santé devait révéler une forte probabilité de survenance ultérieure d'une maladie. Des services de renseignement pourront quant à eux recourir à des algorithmes d'analyse de données massives pour confirmer des risques géopolitiques présumés, avant de passer à la surveillance permanente et multiforme de particuliers.

Big Data - un problème de protection des données?

Les lois relatives à la protection des données règlent le traitement de données liées à une personne. Sont considérées comme données personnelles toutes les informations qui se rapportent à une personne identifiée ou identifiable (art. 3, al. 1, LPD). Un argument souvent invoqué dans le contexte des données massives est que, dans la plupart des cas, seules des données factuelles ou anonymisées sont collectées et que les dispositions relatives à la protection des données ne s'appliquent donc pas.

La difficulté que présentent les données « factuelles » ou « anonymisées » dans le cadre des données massives est qu'on ne peut pas exclure que le rapprochement de plusieurs collections de données n'entraîne une désanonymisation. Dans de nombreux cas, l'anonymisation des identificateurs particuliers évidents ne suffit pas à exclure toute ré-identification. Même les quasi-identificateurs - des combinaisons d'attributs, comme la date de naissance, le sexe et le code postal - doivent être traités avec précaution. Des scientifiques américains ont montré par exemple que les quatre cinquièmes de la population américaine pouvaient être identifiés a posteriori sur la seule base de ces trois caractéristiques. L'attribution a posteriori est par contre nettement plus difficile quand les quasi-identificateurs sont traités sous une forme généralisée, par exemple quand l'indication précise de l'âge (mettons 44 ans) est remplacée par une fourchette « de 40 à 49 ans ». Lorsque plusieurs champs de données sont généralisés, on parle de « k-anonymat ». Plus la valeur de « k » est élevée, plus il existe de groupes jumeaux qui présentent la même combinaison de données, ce qui renforce l'anonymisation. Lorsque l'anonymisation des données est insuffisante, les exigences en matière de traitement prévues par la législation relative à la protection des données s'appliquent et le maître du fichier d'origine peut devoir être amené à rendre des comptes.

L'évolution prévisible de la technologie crée un problème supplémentaire : ce qui passe aujourd'hui pour « anonyme » risque demain de pouvoir être attribué sans grandes difficultés à une personne déterminée, en raison de la rapidité des progrès techniques et de l'adjonction de sources de données supplémentaires, et de constituer ainsi une grave atteinte aux droits de la personnalité. Il est donc nécessaire d'examiner les questions liées à la protection des données dès le développement de nouvelles technologies. Il faut intégrer la protection des données à la conception d'ensemble dès le début (« Privacy by Design »), plutôt que de chercher à résoudre après coup, péniblement et à grand renfort de temps et d'argent, des problèmes de protection des données.

D'autres aspects importants concernant les données massives sous l'angle de la protection des données sont exposés ci-dessous :

  • Les possibilités techniques présentent un grand défi en ce qui concerne l'exigence de transparence prévue par la législation sur la protection des données : chacun a le droit de savoir quelles sont les données le concernant qui sont traitées, par qui et dans quel but. Dans le cas des données massives, le traitement et la connexion de données provenant de différentes sources est très opaque et difficilement vérifiable par les personnes concernées. Les utilisateurs de données massives doivent donc être particulièrement vigilants quant à la transparence du traitement et à l'information des personnes concernées.

  • Le traitement de données massives à caractère personnel requiert le consentement des personnes en cause. À cet égard, le but des procédures impliquant des données massives doit pouvoir être reconnu clairement et sans ambiguïté par les personnes concernées, et ce, dès la collecte des données. Cette approche contredit toutefois le principe des données massives, celles-ci impliquant la constitution de stocks de données qui serviront ultérieurement à un but non encore déterminé. Fournir à titre d'information une description ouverte, générale, du but du traitement des données entraîne l'invalidité juridique du consentement au traitement prévu.

  • L'exigence de l'exactitude des données constitue une difficulté supplémentaire : les algorithmes appliqués aux données massives analysent de grandes masses de données de manière autonome, automatisée, à la recherche notamment de corrélations. Ces procédures d'analyse créent de nouvelles informations liées à des personnes, sans qu'il soit possible de les qualifier d'exactes ou de fausses, puisqu'elles ne constituent que des probabilités ou des interprétations.

Conclusions

Les données massives ouvrent de nouvelles perspectives de connaissances aux sciences économiques et sociales et fournissent une autre forme de création de valeur aux entreprises. Cependant, elles peuvent aussi menacer la sphère privée, par exemple quand les données traitées ne sont pas anonymisées ou qu'elles ne le sont qu'insuffisamment. Lorsque le traitement porte sur des données liées à des personnes, le droit à la sphère privée et la protection des données personnelles doivent être garantis. Lors du traitement de données massives, l'accent doit être mis sur le recours à des techniques et à des procédures respectueuses de la protection des données. Celle-ci doit déjà être prise en compte et la sécurité des données garantie lors de la phase conceptuelle. Le traitement de données massives impose des exigences sévères en termes de transparence et de procédures. Les données massives liées à des personnes entrent en contradiction avec des principes fondamentaux de la loi sur la protection des données (LPD), notamment l'assignation d'un but précis et la retenue quant à la quantité de données collectées. Les données massives placent donc manifestement les conceptions actuelles de la protection des données face à des défis majeurs. L'utilisation de données massives a en effet commencé et elle remet en question des dispositions fondamentales de la LPD. De ce fait, un examen approfondi de la LPD s'impose, pour déterminer si les principes essentiels que sont l'assignation d'un but précis, le consentement des personnes concernées et la transparence peuvent être respectés lors de l'utilisation de données massives.

https://www.edoeb.admin.ch/content/edoeb/fr/home/protection-des-donnees/Internet_und_Computer/services-en-ligne/explications-relatives-aux-big-data--donnees-massives-/explications-relatives-aux-big-data--donnees-massives-.html