Qu’y a-t-il (vraiment !) derrière la collecte des données ?

Publié le 19 avril 2018

Les données personnelles sont un peu le carburant des algorithmes. Mais comment savoir quelles données sont collectées et comment sont-elles utilisées ? Décryptage.

 

AUTEURS

Daniel Lematayer

Directeur de Recherche Inria – Membre de l’Equipe-projet Inria Privatics et du CITI, laboratoire de l’INSA de Lyon

Un besoin de transparence

Au-delà de leur grande variété, les algorithmes partagent un point commun : leur fonctionnement repose sur l’exploitation de données, souvent à grande échelle, et ces données sont souvent des données personnelles. Dès lors, l’exigence de transparence des algorithmes s’applique également à la collecte des données.

La transparence et les données personnelles

L’exigence de transparence sur les données rejoint l’obligation d’information qui pèse sur les responsables de traitements de données personnelles. Cependant, cette obligation est particulièrement difficile à mettre en pratique à une époque où des données de plus en plus nombreuses sont collectées, de multiples façons, et dans des contextes variés. Ces données peuvent être divulguées de manière délibérée par les personnes concernées, comme les mots soumis à un moteur de recherche ou les renseignements fournis dans un formulaire d’inscription à un service en ligne. Elles peuvent aussi être communiquées implicitement, c’est à dire construites automatiquement par le système. Ces données additionnelles, qu’on appelle généralement les métadonnées, peuvent par exemple se rapporter à une communication ou une connexion (date, lieu, destinataire, adresse IP, URL de pages visitées, etc.). Ces métadonnées sont parfois plus intrusives que les données auxquelles elles se rapportent ; elles peuvent notamment être utilisées pour inférer des informations sur les déplacements, la vie sociale, les habitudes, voire la santé d’une personne.

Le saviez-vous ?

Métadonnées– Du grec « meta », ce qui dépasse, englobe un objet, une science. Les métadonnées sont un ensemble d’informations décrivant une ressource : ce sont des « données sur les données ».
En savoir plus sur les métadonnées

Le fait d’être unique

Nous sommes uniques, et de multiples façons : par les configurations de nos ordinateurs et téléphones mobiles (paramétrages, applications installées, extensions de navigateurs, etc.), nos habitudes (lieux fréquentés, consommation, etc.), et même nos façons de marcher et de bouger. La quasi-totalité de nos activités se reflétant dans le monde numérique, nous laissons derrière nous des « empreintes numériques » qui nous rendent de plus en plus traçables.


Chiffres clés

1 étude menée sur 15 mois a montré que 4 informations spatio-temporelles suffisent pour identifier 95 % des personnes dans une base de données de plus de 1,5 M de détenteurs de téléphones mobiles.

 


La transparence sur les caractéristiques des jeux de données

Au-delà de la question de la transparence sur les données personnelles, se pose celle de la maîtrise du jeu de données dans son ensemble. On sait en effet que les algorithmes qui reposent sur l’apprentissage ont, par définition, tendance à reproduire les caractéristiques, et notamment les biais, des jeux de données qui leur sont fournis en entrée. Un algorithme entraîné sur une base de données salariales qui comporterait des différences de traitements notables entre hommes et femmes ou entre employés habitant dans des quartiers différents, par exemple, reproduira naturellement ces discriminations. Des techniques peuvent être appliquées pour mesurer ce genre de biais ou pour les éviter, par exemple en assurant que l’apprentissage est effectué sur un jeu de données non biaisé (S. Hajian, J. Domingo-Ferrer, Direct and indirect discrimination prevention methods (pdf), in “Discrimination and Privacy in the Information Society”, Chapter 13, pp. 241-254, Springer, 2013).

BONNES PRATIQUES
Découvrez quelques gestes simples pour être « juste ce qu’il faut » anonyme.

 

Ajouter une ressource

Participer vous aussi au développement de la transparence des algorithmes et des données en ajoutant des ressources

Commentaires

Les commentaires pour cette ressource sont désactivés.