Il ne faut pas 'libérer les données'. Il faut se libérer par les données.


J’ai écrit cet essai pour mon intervention au Datarama de Nantes, le 20 septembre 2017, sur le thème des données et de l’éthique. C’est une adaptation d’une présentation de 2016 intitulée ‘Free your data’ is over. Now, we need data to be free.

“Libérer les données”, c’est le slogan des activistes de l’open data, les données ouvertes. Pour eux, l’administration devrait mettre à disposition ses données afin que l’on puisse les réutiliser. Mais réutiliser les statistiques de l’administration, c’est se plier à sa vision du monde. Pour pouvoir penser librement, il faut surtout créer ses propres données et mesurer le monde comme on le conçoit. Il faut se libérer par les données.

Le carburant de la machine à gouverner

La statistique veut être la science de l’état, la science de l’administration. Et comme “étatistique” ne sonnait pas bien, on a gardé le mot allemand, Staatistik, en le francisant un peu. Avec la statistique, le gouvernement imaginait créer une machine à gouverner.1 En connaissant précisément l’état du pays, il pourrait réagir en temps réel et corriger les déséquilibres afin de mener à bien une politique publique. Enfin… c’était la théorie.

C’était la théorie de Vauban, qui, quand il ne construisait pas ses jolies citadelles, imaginait des moyens de dénombrer la population de ce qui était encore le royaume de France. Ce n’est pas la moindre de ses réalisation que d’avoir quasiment inventé, dans son coin, le recensement moderne. Son obsession, à Vauban, c’était la croissance de la population. Plus un roi a de sujets, plus il est puissant, répétait-il. C’est la raison pour laquelle, dans sa Méthode Générale et Facile (sic) pour faire le Dénombrement des Peuples, il divise la population en trois catégories: Adultes, enfants et puis les “à marier”.2 Il va de soit qu’il souhaitait que l’action publique se concentre à réduire cette catégorie en encourageant les mariages.

Vauban est mort en 1707 sans avoir pu faire le grand dénombrement dont il rêvait, et la France n’a pas été le premier pays recenser régulièrement ses sujets (ce fut la Suède, à partir de 1749). Sa méthode, elle, est restée. Mais les trois catégories ne suffisaient plus. On a d’abord ajouté une catégorie pour les vieux, afin de pouvoir compter les hommes en âge de combattre sur le territoire. Surtout, on a commencé à trier les hommes et les femmes par année de naissance, dans certaines villes dès la fin du 17e siècle. Pourquoi faire des statistiques aussi précises à une époque où les trois-quarts de la population n’ont pas à manger? Tout simplement car on vient d’inventer un instrument financier : la rente viagère.3 Pour ceux et celles qui ne connaissent pas le concept, une personne âgée peut échanger la propriété d’un bien, dont elle conserve l’usufruit, contre une rente qu’elle percevra tous les mois jusqu’à sa mort. Pour l’acheteur, il faut savoir combien de temps, en moyenne, le vendeur va vivre pour être certain de faire une bonne affaire. Là encore, les statistiques servent un intérêt bien précis, en l’occurrence celui des milieux financiers.

En plus de servir les intérêts de l’administration ou ceux de groupes d’intérêts, les statistiques peuvent avoir un troisième rôle, plus subtil, qui a longtemps échappé à ceux-là même qui conduisaient les recensements. C’est Foucault (le philosophe, pas l’autre idiot), qui théorise le mieux la notion de savoir-pouvoir.4 Le simple fait de produire un savoir sur une personne ou un groupe permet d’exercer son pouvoir sur eux, dans la mesure où l’on forge les manières possible de penser sur un sujet. Ce n’est pas un hasard si les meilleurs recensements que l’administration a effectués au 18e siècle sont ceux des colonies.5 Les catégories qu’elle a utilisée à l’époque, de Français, blancs, sauvages libres, esclaves etc. guident la réflexion sur les questions raciales depuis lors.

Instruments de pouvoir

Pourquoi raconter ces histoires de statistiques sous l’Ancien Régime? Parce que les problèmes posés à l’époque sont toujours d’actualité. On nous présente les statistiques comme une représentation fidèle de la réalité, on nous apprend à les considérer comme étant neutres, alors que ce sont des instruments de pouvoir d’une force inouïe.

Le produit intérieur brut, par exemple, avec lequel on calcule la croissance, reste l’objectif premier de toutes les politiques publiques depuis plusieurs décennies. Ce PIB a été créé pendant la seconde guerre mondiale aux États-Unis afin de pouvoir mesurer l’activité industrielle et planifier au mieux la production militaire.6 Cette mesure est-elle adaptée à une économie post-industrielle? Absolument pas. Les activités financières, par exemple, qui par définition ne produisent rien, sont intégrées au calcul du PIB, mais de nombreux économistes y étaient opposés. Nul doute que, si les banques et les assurances étaient exclues du calcul, certaines politiques publiques changeraient du tout au tout. Même chose pour les fonctionnaires. On calcule le PIB comme si leur valeur ajoutée était nulle (on ne compte pour le calcul que leurs salaires).7 Est-ce correct? Si on leur assignait une valeur ajoutée, une augmentation du nombre de fonctionnaires aurait des effets statistiques forts différents d’aujourd’hui.

Les problèmes que posent les statistiques de l’administration sont bien connus. Prenez les chiffres de la délinquance. On sait bien qu’ils ne reflètent que les ordres donnés par un préfet à ses policiers. Imagine-t-on une seconde qu’il n’y a eu en 2011 que 13 fraudes fiscales en Loire Atlantique, comme l’indiquent les chiffres de la police?8

Même chose pour les chiffres du chômage. Ils servent deux objectifs: Savoir quel montant Pôle Emploi va devoir verser aux assurés tous les mois, et communiquer les progrès du gouvernement dans sa “lutte contre le chômage”. Vous connaissez tous des hommes ou des femmes sans emploi qui ne rentrent pas dans cette statistique parce qu’ils sont en catégorie D ou E, ou parce qu’ils ne sont pas inscrits à Pôle Emploi, ou parce qu’ils sont auto-entrepreneurs sans activité. Et vous connaissez tous des hommes ou des femmes qui sont partis en vacances alors qu’ils étaient officiellement à la recherche d’un emploi.

Données toxiques

Bien sûr, l’administration collecte des données pour pouvoir faire son travail, pas pour aider les chercheurs ou les journalistes. Si l’administration est honnête, on peut utiliser les statistiques qu’elle produit en restant attentifs aux biais éventuels qu’on y trouvera. Mais parfois, les données de l’administration ne sont pas seulement de mauvaise qualité, elles sont toxiques. En janvier 2016, par exemple, Europol, le centre de coordination des polices des états-membres de l’Union Européenne, a annoncé que 10.000 enfants réfugiés manquaient à l’appel et qu’ils étaient probablement entre les mains de trafiquants. On leur a demandé d’où venait ce chiffre, mais ils ont refusé de communiquer leur méthodologie. Ils ont refusé car cette statistique était fantaisiste, c’était une extrapolation à partir des données d’Italie, où les mineurs quittent effectivement les centres où ils sont enregistrés, le plus souvent pour rejoindre des membres de leur famille ailleurs en Europe.9 Le chiffre ne servait qu’un objectif: mettre Europol sur le devant de la scène à quelques jours de l’annonce de la création de leur “centre de lutte contre le trafic de migrants”.

Les forces de coercition du gouvernement sont de grands collecteurs de données. Et ils font des erreurs. Massives. En 2009, la CNIL a vérifié un fichier du ministère de l’intérieur. Elle a trouvé qu’une fiche sur trois était exacte.10 Il n’y a pas d’erreur dans la phrase précédente: la majeure partie de la base de données était erronée. Et on ne parle là que d’une des 70 bases de données que gère la police!11 Non seulement les statistiques produites par le ministère de l’intérieur à partir de ces fichiers sont complètement fantaisistes, mais des personnes innocentes se font interpeller et éventuellement condamner sur la base de ces données.

Dans ces conditions, à quoi sert de réclamer l’ouverture des données de l’administration? Plus on en utilisera, plus on se recroquevillera dans le moule des fonctionnaires parisiens qui décident quoi mesurer et comment mesurer. Évidemment, ce problème touche certains domaines plus que d’autres. L’historique des précipitations n’a pas la même sensibilité politique que le nombre de terroristes potentiels. Et pourtant. L’administration Trump montre qu’aucun domaine n’est épargné. En obligeant son ministère de l’environnement à ne plus utiliser le terme “changement climatique”,12 elle met en danger les données publiques sur le sujet. Ce n’est pas en vain que les scientifiques américains ont sauvegardé de tout ce qu’ils pouvaient avant l’entrée en fonction du président américain.13

Produire des statistiques

Certains diront qu’il faut se libérer des données tout court et laisser filer notre imagination. Manque de bol, si l’on veut comprendre le monde, essayer de se rapprocher de la vérité, nous n’avons pas le choix. En tant qu’humains, nous sommes limités par nos sens et notre capacité d’analyse. La méthode scientifique est le meilleur moyen de produire de la vérité factuelle et pour l’utiliser, les données structurées sont indispensables.

Plutôt que de réutiliser les données de l’administration, il faut créer ses propres bases de données. C’est seulement en développant une statistique en dehors de l’état que l’on est capable de mesurer le monde - y compris l’action de l’état - en restant indépendant.

Combien de personnes ont-elles été tuées par la police? Ce nombre est-il en augmentation, en diminution? Ne cherchez pas la réponse dans les données publiques, le ministère de l’intérieur se moque bien de savoir qui la police tue (en revanche, vous trouverez des statistiques sur les policiers tués). Ce sont les journalistes de Streetpress qui ont collecté ces données et donnent la réponse: 47 personnes désarmées ont été tuées.14 Et comme des journalistes ont fait un travail similaire à l’étranger, on peut mettre ce chiffre dans son contexte. 47 tués en 10 ans, c’est moins qu’aux États-Unis, mais seulement deux fois moins (rapporté au nombre d’habitants) alors que la France est un territoire beaucoup moins violent.15

Surtout, l’enquête de Streetpress a montré qu’aucun des policiers impliqués dans ces homicides n’a été condamné. Encore une statistique que le ministère de la justice se garde bien de collecter. En Allemagne, des journalistes de ZEIT Online ont créé leur base de données sur le traitement judiciaire des incendies criminels dans les centres d’hébergements de personnes fuyant la guerre. Ils ont montré que les policiers et les juges ne prenaient pas souvent la peine d’enquêter ou de juger ces affaires, comparé aux autres crimes du même type.16

Les données changent les perceptions

En créant soi-même des statistiques, on change la manière dont un problème est perçu. En 2013, avec plusieurs journalistes européens, nous avons créé une base de données des personnes mortes en essayant de venir ou de rester en Europe, The Migrants’ Files. Jusqu’alors, quasiment personne ne comptait ces décès. Un personne de l’administration française nous a même dit que ce n’était pas son problème car “une fois mort, ce n’est plus un migrant”. En créant cette base de données et en la mettant à disposition dans un format facile à réutiliser, The Migrants’ Files a permis, à une échelle très modeste, d’influencer le regard des institutions sur le sujet. Lorsqu’un bateau faisait naufrage ou qu’un homme se faisait abattre par des gardes-frontières, c’était une anecdote. Avec des statistiques, ces morts peuvent être contextualisés. Ils ne sont plus des anecdotes, mais font partie d’un tout concret et mesurable. Et c’est parce qu’il est mesurable qu’il peut être l’objet d’une politique publique.

Dans tous les domaines, des choses importantes ne sont pas mesurées et, de ce fait, ignorées par le gouvernement. En commençant à les analyser avec des statistiques, on donne aux activistes des moyens d’agir et aux politiques des moyens de mesurer les résultats de leur action. D’autres époques mettaient l’accent sur le récit. Vous ne trouverez pas beaucoup de données chiffrées chez les muckrakers, les journalistes d’investigation américains du début du 20e siècle, ni chez Zola. Ni même chez Engels, dans sa Situation de la classe ouvrière en Angleterre en 1844. Aujourd’hui, le besoin de récit n’a pas disparu, mais il s’accompagne d’un besoin de données. Et les exemples abondent de projets où des rédactions ou des citoyens nourrissent le débat public avec des jeux de données nouveaux et crédibles, comme les observation des niveaux de radioactivité de Safecast, ou bien les statistiques sur les violences raciales en Inde collectées par le Hindustan Times, ou encore le Indultometro, un observatoire des pardons présidentiels en Espagne.17

Réutiliser les données publiques, pourquoi pas. Mais l’éthique journalistique, celle qui affirme que les journalistes participent de l’équilibre des pouvoirs, impose de créer et d’entretenir soi-même des bases de données.

Notes

1. Lire ou écouter Alain Supiot à ce sujet: Du gouvernement par les lois à la gouvernance par les nombres: En quête de la machine à gouverner.

2. Vauban, inventeur des recensements p.219. Un autre article intéressant sur les dénombrements de Vauban: Connaître et accroître les peuples du royaume: Vauban et la population.

3. The French population censuses: Purposes and uses during the 17th, 18th and 19th centuries p.101

4. Ce court et clair article résume très bien le sujet: Savoir et pouvoir dans la grille de Foucault.

5. On retrouve ces dénombrements aux archives nationales de l’Outre-mer, e.g pour la Martinique.

6. Sur le sujet, je recommande le très bon GDP: A Brief but Affectionate History.

7. Les salaires et autre coûts de production, pour être précis, comme indiqué dans le document de référence sur le calcul du PIB, Système des Comptes 2010 p.66. Comme me l’a fait remarquer Denis Gouaux, leur valeur ajoutée n’est pas techniquement nulle, elle est constituée de leurs salaires uniquement.

8. Comme l’indique la base Etat4001 sur data.gouv.fr. Impossible d’avoir des données plus récentes

9. Les traficants, eux, ordonnent aux personnes qu’ils possèdent de se déclarer majeures. Retrouvez les détails dans la newsletter de The Migrants’ Files.

10. Dans Conclusions du contrôle du système de traitement des infractions constatée, dernière page.

11. 70, c’était en 2011, on doit être largement au delà. Source: Nicolas Sarkozy a créé 44 fichiers policiers.

12. Voir US federal department is censoring use of term ‘climate change’, emails reveal.

13. Voir Scientists copy climate change data in fear of a Trump crackdown.

14. Voir En 10 ans, 47 décès liés aux violences policières, aucun fonctionnaire en prison.

15. Données sur les personnes tuées par la police: Washington Post (le décompte du Guardian arrive à un total différent, deux fois plus élevé) ; données sur le taux d’homicides: World Bank.

16. Voir Es brennt in Deutschland.

17. J’ai écrit un plus long article en juillet 2017 sur ce sujet: Measuring the Unmeasured with Data.