La data fait peur. Elle est synonyme de transparence, de contrôle absolu de nos vies, de totalitarisme… Mais qu’en est-il réellement ? Rien n’a changé : c’est l’homme qui est au centre et reste au centre. Voilà qui devrait remettre le débat et les enjeux à l’endroit.

L’air de rien

« RGPD » ou non, le monde tel que nous l’avons connu a déjà changé, et cela est irréversible. J’utilise Waze – je laisse des données qui seront vendues. J’allume mon téléphone portable – on triangule aussitôt ma position. Je suis sur Facebook – le Fisc y jette un œil régulier. Je me connecte le matin pour télétravailler – un log enregistre immédiatement mes données de connexion. Je crois avoir refusé des cookies, c’est une autre technique, les pixels, qui me traque. Je vais au magasin et donne mon courriel ou mon numéro de téléphone, sinon je n’ai pas la carte de réduction dont je souhaite disposer.

Dès le début des années 1990 (avant même que l’internet ne prenne le rôle central qu’il joue aujourd’hui), des activistes nommés les « cypherpunks » avaient eu l’intuition que notre société, en devenant ouverte et transparente, pouvait menacer nos libertés. C’est pourquoi les cyphers ont développé des modes de cryptographie au service de la protection des données, afin de cacher ce qui est trop accessible. Puis d’autres ont suivi dans plusieurs directions, visant à chaque fois à ne pas laisser un « tiers » entrer dans les systèmes : on invente par exemple des techniques en « oignons » (c’est le principe du logiciel Tor si connu pour être le guichet du Darkweb) qui veulent éviter que « l’homme du milieu » puisse analyser le trafic des serveurs ; ou bien, pour ne plus se fier à un « tiers de confiance » un certain Natoschi publie en 2008 un livre blanc qui sera le principe des crypto-monnaie. Le tiers est l’ennemi.

*

1. Ce voile de pudeur jeté sur notre transparence numérique est cependant tout autant le voile d’Hélène dans le Faust de Goethe : « Ses vêtements s’évaporent en nuages »… Nous sommes nus dans une société qui, pour le meilleur et pour le pire, n’est pas seulement « ouverte » (K. Popper) mais un monde fait de transparence plus ou moins limitée. Les Cypherpunks restent une ultra-minorité, le darknet une zone interlope que la plupart des gens ne fréquentent pas ; les personnes capables de dérouter le tracé de leurs parcours utilisateurs par des outils (VPN, adguard…) sont très rares. La RGPD elle-même est son propre adversaire : en rendant trop complexes les règles d’acceptation ou non par l’utilisateur de ses données, elle fait perdre au dispositif de consentement une grande partie de son efficacité. Le trop est l’ennemi du bien : ce que les sites vous obligent à lire est trop lourd, trop long à comprendre. Les études montrent d’ailleurs que les utilisateurs de l’internet n’y comprennent rien et, sauf à citer les plus teens, n’ont pas vraiment idée de la manière de protéger leurs données ou de se soumettre correctement aux questionnaires de consentement. La plupart des gens ont également intégré que la gratuité des services dont ils disposent sur l’internet n’existe qu’en échange de leurs données (« si tu ne payes pas pour un produit, c’est que c’est toi le produit »), il y a un contrat implicite avec le monde numérique.

Et puis, on peut toujours récupérer les données si on le veut vraiment : en 2021, toute la presse s’est fait l’écho du coup de filet magistral opéré par le FBI et Interpol – l’opération « Bouclier de Troie » – grâce au piratage d’une technologie prétendument ultrasécurisée (ANoM) où les malfrats échangeaient leurs conversations en se pensant à l’abri. Or cette messagerie avait été créée de toute pièces par le FBI, lequel est par ailleurs encore parvenu récemment à arrêter le patron de Freedom Hosting, une plate-forme criminelle, en s’introduisant dans un des serveurs pourtant protégé par la technique « oignon » de Tor.

Personne ne peut vraiment échapper au traçage quand on y met les moyens technologiques.

Il y a bien une utopie, celle du Web 3.0 consistant à rendre les données aux utilisateurs et à éviter tout « tiers de confiance » qui pourrait les utiliser. Nous en reparlerons : mais à ce stade, on ne voit encore qu’une collection d’usages assez précis (les NFT pour l’art, le bitcoin). Il y en a même dans notre métier audiovisuel : il existe une plateforme de SVOD (Livepeer) qui prétend offrir via le web 3.0 et la technique Ethereum une « infrastructure vidéo en libre accès » protégé de tout transfert de données. Mais voilà : autant que l’internet ouvert et collaboratif – celui qui menait Google avant sa course aux données à partir de l’an 2000, l’internet fermé et collaboratif est une utopie de classe. Elle restera réservée à quelques domaines, à quelques utilisateurs, et vient à peine perturber la transparence quasi totale de nos existences aux données que nous produisons en permanence – et qui sont recueillies à chaque instant.

*

2. Sont-elles pour autant utilisées ? Certes non. Il faut savoir faire trois choses : récolter les données, tracer les profils d’utilisateurs et les contenus que l’on veut offrir, et visualiser correctement les données. Nous laissons tellement de données que les utiliser est extrêmement difficile : le rêve de la gestion du « big data » est très loin d’être à la portée du premier venu ; et encore, même pour ceux qui savent récolter les données, organiser le traçage et visualiser les données, le vieux rêve d’être capable de suivre individuellement chaque individu a fini par disparaître dans une bien plus modeste posture probabiliste. On ne promet plus de prédire ce que chaque personne va faire ni de tout connaître d’elle, ni même de prédire l’évolution d’une épidémie.

Plus modestement, la science des données a rejoint la science tout court (I. Stengers et I. Prygogine, La nouvelle alliance) – la science désormais incertaine, qui connaît que l’on peut tout au mieux énoncer des « probabilités », dans un univers si sensible aux conditions initiales que le battement d’ailes d’un papillon en Californie peut provoquer une tempête en Asie. Énoncer des probabilités devient le premier principe des algorithmes. Et encore ! des probabilités seulement de cerner le fait qu’un individu appartienne à un ensemble statistique (de consommateurs par exemple). La prétendue personnalisation est en réalité une probabilisation : on vous soumet un produit parce qu’il est probable que vous apparteniez à un ensemble identifié de consommateurs selon ce qu’on a recueilli de vous comme données. Cela rend modeste le métier du data.

La technologie d’intelligence artificielle elle-même ne cesse de saisir qu’elle ne peut être un dogme : après les échecs des systèmes experts dans les années 1980, les ingénieurs ont développé une intelligence artificielle capable, enfin, d’apprendre à apprendre (le machine learning) ; mais cette approximation croissante ne suffit pas encore et l’on rêve désormais d’une intelligence artificielle plus profonde dans ses capacités de “deep learning”. Apprendre devient le second principe des algorithmes : ils sont seulement des machines à aller plus loin. Cela aussi rend humble la perspective du data.

Ce n’est donc pas parce que nous sommes immanquablement transparents dans nos traces numériques que tout le monde peut rassembler nos données ; et moins encore qu’il soit possible d’en faire quelque chose. Il y a loin de la coupe aux lèvres : le traitement des données suppose une organisation complexe, et ce qu’on est capable d’en faire reste dans les limites de la technologie humaine – capable tout au plus de produire des modèles comportementaux assez grossiers. Et qui resteront sous la forme de ressemblances vagues (« look-alike ») quelle que soit la finesse des traitements des données. C’est en effet que les données que nous laissons sont dénuées de leur clef d’interprétation. Il faut multiplier les méta-données (les données contextuelles) pour commencer, et encore à peine, à voir l’esquisse de ce qui était porteur de sens quand nous avons produit telle ou telle données.

*

3. Car voici le grand mystère, inaccessible aux algorithmes : entrer dans l’Intention qui mène un individu au moment où il produit une action, qui laisse une idée. J’achète une layette sur Amazon. La firme va me traquer pendant des mois comme amateur de talons, alors que j’effectuais cet achat pour un petit neveu. Amazon n’a pas cette clé intérieure qui ouvre, seule, les données extérieures.

C’est vrai que nous sommes nus numériquement. Mais notre vêtement est intérieur, c’est la force de notre esprit : le sens, les motivations, les intentions qui guident nos actions. Les données sont toujours en retard par rapport à cette intériorité qui crypte et décrypte autant qu’elle le veut même les traces les plus évidentes de nos activités.

Tout a donc changé avec l’univers de la donnée. Mais rien n’a changé : c’est l’homme qui est au centre et reste au centre. L’univers du data reste sous la commande de l’esprit. Voilà, au seuil même de tout métier du data – data ingénieurs, data architectes, data scientists, data analysts… – une leçon d’humilité : la donnée n’est que la poudre d’or qui reste quand l’homme passe, que son âme dépose une marque indélébile de son passage – mais l’esprit va où il veut et où bon lui semble.

C’est aussi la raison pour laquelle l’utilisation de la donnée pour changer l’état d’esprit de quelqu’un est très peu utile. On a découvert après le scandale des Cambridge Analytica que le fait d’avoir utilisé la donnée afin de convaincre les gens de voter pour tel ou tel parti n’avait fait que renforcer la croyance de ceux qui avaient déjà une conviction, et zéro effet sur les autres. Une recherche récente a également montré que les « fact-checkings » mis en place par les médias sont inefficaces sur la profondeur des croyances, car celles-ci relèvent d’autres systèmes que la confrontation au fait ou à la donnée. Nous sommes complexes.

La donnée est ainsi toujours en retard. L’homme reste aux commandes et la machine n’est qu’un outil. C’est pourquoi, comme nous le verrons à la prochaine chronique, la première double compétence lorsque l’on entre dans les métiers de la donnée, c’est celle du respect et celle de la curiosité

Emmanuel TOURPE

.
Lire les chroniques précédentes d’Emmanuel Tourpe :
DATA – Pourquoi tout change avec les données
DATA – Ces mystérieuses données qui suscitent peurs et fantasmes
Les deux plus beaux mots du moment : « Consentement » et « Nature »
La Modernité est morte. Vive la Modernité !
Du neuf dans le spectacle ! Le “transport narratif” : une idée puissante à creuser

.


Emmanuel Tourpe, 52 ans et père de 4 enfants, est le directeur de la transformation digitale et du data management à Arte. Il a occupé la direction de la programmation TV / numérique de la chaîne culturelle Arte et de la RTBF pendant presque vingt ans. Docteur habilité en philosophie, il est l’auteur d’un grand nombre d’ouvrages et d’articles scientifiques. Il est également un conférencier international. Il exerce également des fonctions de conseil en communication, management et stratégie. Il tient une chronique bimensuelle, qui n’engage que lui et en aucun cas les différentes institutions pour lesquelles il travaille, dans Profession Audio|Visuel depuis octobre 2020.