Il ne faut pas 'libérer les données'. Il faut se libérer par les données.
J’ai Ă©crit cet essai pour mon intervention au Datarama de Nantes, le 20 septembre 2017, sur le thĂšme des donnĂ©es et de l’Ă©thique. C’est une adaptation d’une prĂ©sentation de 2016 intitulĂ©e ‘Free your data’ is over. Now, we need data to be free.
“LibĂ©rer les donnĂ©es”, c’est le slogan des activistes de l’open data, les donnĂ©es ouvertes. Pour eux, l’administration devrait mettre Ă disposition ses donnĂ©es afin que l’on puisse les rĂ©utiliser. Mais rĂ©utiliser les statistiques de l’administration, c’est se plier Ă sa vision du monde. Pour pouvoir penser librement, il faut surtout crĂ©er ses propres donnĂ©es et mesurer le monde comme on le conçoit. Il faut se libĂ©rer par les donnĂ©es.
Le carburant de la machine Ă gouverner
La statistique veut ĂȘtre la science de l’Ă©tat, la science de l’administration. Et comme “Ă©tatistique” ne sonnait pas bien, on a gardĂ© le mot allemand, Staatistik, en le francisant un peu. Avec la statistique, le gouvernement imaginait crĂ©er une machine Ă gouverner.1 En connaissant prĂ©cisĂ©ment l’Ă©tat du pays, il pourrait rĂ©agir en temps rĂ©el et corriger les dĂ©sĂ©quilibres afin de mener Ă bien une politique publique. Enfin… c’Ă©tait la thĂ©orie.
C’Ă©tait la thĂ©orie de Vauban, qui, quand il ne construisait pas ses jolies citadelles, imaginait des moyens de dĂ©nombrer la population de ce qui Ă©tait encore le royaume de France. Ce n’est pas la moindre de ses rĂ©alisation que d’avoir quasiment inventĂ©, dans son coin, le recensement moderne. Son obsession, Ă Vauban, c’Ă©tait la croissance de la population. Plus un roi a de sujets, plus il est puissant, rĂ©pĂ©tait-il. C’est la raison pour laquelle, dans sa MĂ©thode GĂ©nĂ©rale et Facile (sic) pour faire le DĂ©nombrement des Peuples, il divise la population en trois catĂ©gories: Adultes, enfants et puis les “Ă marier”.2 Il va de soit qu’il souhaitait que l’action publique se concentre Ă rĂ©duire cette catĂ©gorie en encourageant les mariages.
Vauban est mort en 1707 sans avoir pu faire le grand dĂ©nombrement dont il rĂȘvait, et la France n’a pas Ă©tĂ© le premier pays recenser rĂ©guliĂšrement ses sujets (ce fut la SuĂšde, Ă partir de 1749). Sa mĂ©thode, elle, est restĂ©e. Mais les trois catĂ©gories ne suffisaient plus. On a d’abord ajoutĂ© une catĂ©gorie pour les vieux, afin de pouvoir compter les hommes en Ăąge de combattre sur le territoire. Surtout, on a commencĂ© Ă trier les hommes et les femmes par annĂ©e de naissance, dans certaines villes dĂšs la fin du 17e siĂšcle. Pourquoi faire des statistiques aussi prĂ©cises Ă une Ă©poque oĂč les trois-quarts de la population n’ont pas Ă manger? Tout simplement car on vient d’inventer un instrument financier : la rente viagĂšre.3 Pour ceux et celles qui ne connaissent pas le concept, une personne ĂągĂ©e peut Ă©changer la propriĂ©tĂ© d’un bien, dont elle conserve l’usufruit, contre une rente qu’elle percevra tous les mois jusqu’Ă sa mort. Pour l’acheteur, il faut savoir combien de temps, en moyenne, le vendeur va vivre pour ĂȘtre certain de faire une bonne affaire. LĂ encore, les statistiques servent un intĂ©rĂȘt bien prĂ©cis, en lâoccurrence celui des milieux financiers.
En plus de servir les intĂ©rĂȘts de l’administration ou ceux de groupes d’intĂ©rĂȘts, les statistiques peuvent avoir un troisiĂšme rĂŽle, plus subtil, qui a longtemps Ă©chappĂ© Ă ceux-lĂ mĂȘme qui conduisaient les recensements. C’est Foucault (le philosophe, pas l’autre idiot), qui thĂ©orise le mieux la notion de savoir-pouvoir.4 Le simple fait de produire un savoir sur une personne ou un groupe permet d’exercer son pouvoir sur eux, dans la mesure oĂč l’on forge les maniĂšres possible de penser sur un sujet. Ce n’est pas un hasard si les meilleurs recensements que l’administration a effectuĂ©s au 18e siĂšcle sont ceux des colonies.5 Les catĂ©gories qu’elle a utilisĂ©e Ă l’Ă©poque, de Français, blancs, sauvages libres, esclaves etc. guident la rĂ©flexion sur les questions raciales depuis lors.
Instruments de pouvoir
Pourquoi raconter ces histoires de statistiques sous l’Ancien RĂ©gime? Parce que les problĂšmes posĂ©s Ă l’Ă©poque sont toujours d’actualitĂ©. On nous prĂ©sente les statistiques comme une reprĂ©sentation fidĂšle de la rĂ©alitĂ©, on nous apprend Ă les considĂ©rer comme Ă©tant neutres, alors que ce sont des instruments de pouvoir d’une force inouĂŻe.
Le produit intĂ©rieur brut, par exemple, avec lequel on calcule la croissance, reste l’objectif premier de toutes les politiques publiques depuis plusieurs dĂ©cennies. Ce PIB a Ă©tĂ© créé pendant la seconde guerre mondiale aux Ătats-Unis afin de pouvoir mesurer l’activitĂ© industrielle et planifier au mieux la production militaire.6 Cette mesure est-elle adaptĂ©e Ă une Ă©conomie post-industrielle? Absolument pas. Les activitĂ©s financiĂšres, par exemple, qui par dĂ©finition ne produisent rien, sont intĂ©grĂ©es au calcul du PIB, mais de nombreux Ă©conomistes y Ă©taient opposĂ©s. Nul doute que, si les banques et les assurances Ă©taient exclues du calcul, certaines politiques publiques changeraient du tout au tout. MĂȘme chose pour les fonctionnaires. On calcule le PIB comme si leur valeur ajoutĂ©e Ă©tait nulle (on ne compte pour le calcul que leurs salaires).7 Est-ce correct? Si on leur assignait une valeur ajoutĂ©e, une augmentation du nombre de fonctionnaires aurait des effets statistiques forts diffĂ©rents d’aujourd’hui.
Les problĂšmes que posent les statistiques de l’administration sont bien connus. Prenez les chiffres de la dĂ©linquance. On sait bien qu’ils ne reflĂštent que les ordres donnĂ©s par un prĂ©fet Ă ses policiers. Imagine-t-on une seconde qu’il n’y a eu en 2011 que 13 fraudes fiscales en Loire Atlantique, comme l’indiquent les chiffres de la police?8
MĂȘme chose pour les chiffres du chĂŽmage. Ils servent deux objectifs: Savoir quel montant PĂŽle Emploi va devoir verser aux assurĂ©s tous les mois, et communiquer les progrĂšs du gouvernement dans sa “lutte contre le chĂŽmage”. Vous connaissez tous des hommes ou des femmes sans emploi qui ne rentrent pas dans cette statistique parce qu’ils sont en catĂ©gorie D ou E, ou parce qu’ils ne sont pas inscrits Ă PĂŽle Emploi, ou parce qu’ils sont auto-entrepreneurs sans activitĂ©. Et vous connaissez tous des hommes ou des femmes qui sont partis en vacances alors qu’ils Ă©taient officiellement Ă la recherche d’un emploi.
Données toxiques
Bien sĂ»r, l’administration collecte des donnĂ©es pour pouvoir faire son travail, pas pour aider les chercheurs ou les journalistes. Si l’administration est honnĂȘte, on peut utiliser les statistiques qu’elle produit en restant attentifs aux biais Ă©ventuels qu’on y trouvera. Mais parfois, les donnĂ©es de l’administration ne sont pas seulement de mauvaise qualitĂ©, elles sont toxiques. En janvier 2016, par exemple, Europol, le centre de coordination des polices des Ă©tats-membres de l’Union EuropĂ©enne, a annoncĂ© que 10.000 enfants rĂ©fugiĂ©s manquaient Ă l’appel et qu’ils Ă©taient probablement entre les mains de trafiquants. On leur a demandĂ© d’oĂč venait ce chiffre, mais ils ont refusĂ© de communiquer leur mĂ©thodologie. Ils ont refusĂ© car cette statistique Ă©tait fantaisiste, c’Ă©tait une extrapolation Ă partir des donnĂ©es d’Italie, oĂč les mineurs quittent effectivement les centres oĂč ils sont enregistrĂ©s, le plus souvent pour rejoindre des membres de leur famille ailleurs en Europe.9 Le chiffre ne servait qu’un objectif: mettre Europol sur le devant de la scĂšne Ă quelques jours de l’annonce de la crĂ©ation de leur “centre de lutte contre le trafic de migrants”.
Les forces de coercition du gouvernement sont de grands collecteurs de donnĂ©es. Et ils font des erreurs. Massives. En 2009, la CNIL a vĂ©rifiĂ© un fichier du ministĂšre de l’intĂ©rieur. Elle a trouvĂ© qu’une fiche sur trois Ă©tait exacte.10 Il n’y a pas d’erreur dans la phrase prĂ©cĂ©dente: la majeure partie de la base de donnĂ©es Ă©tait erronĂ©e. Et on ne parle lĂ que d’une des 70 bases de donnĂ©es que gĂšre la police!11 Non seulement les statistiques produites par le ministĂšre de l’intĂ©rieur Ă partir de ces fichiers sont complĂštement fantaisistes, mais des personnes innocentes se font interpeller et Ă©ventuellement condamner sur la base de ces donnĂ©es.
Dans ces conditions, Ă quoi sert de rĂ©clamer l’ouverture des donnĂ©es de l’administration? Plus on en utilisera, plus on se recroquevillera dans le moule des fonctionnaires parisiens qui dĂ©cident quoi mesurer et comment mesurer. Ăvidemment, ce problĂšme touche certains domaines plus que d’autres. L’historique des prĂ©cipitations n’a pas la mĂȘme sensibilitĂ© politique que le nombre de terroristes potentiels. Et pourtant. L’administration Trump montre qu’aucun domaine n’est Ă©pargnĂ©. En obligeant son ministĂšre de lâenvironnement Ă ne plus utiliser le terme “changement climatique”,12 elle met en danger les donnĂ©es publiques sur le sujet. Ce n’est pas en vain que les scientifiques amĂ©ricains ont sauvegardĂ© de tout ce qu’ils pouvaient avant l’entrĂ©e en fonction du prĂ©sident amĂ©ricain.13
Produire des statistiques
Certains diront qu’il faut se libĂ©rer des donnĂ©es tout court et laisser filer notre imagination. Manque de bol, si l’on veut comprendre le monde, essayer de se rapprocher de la vĂ©ritĂ©, nous n’avons pas le choix. En tant qu’humains, nous sommes limitĂ©s par nos sens et notre capacitĂ© d’analyse. La mĂ©thode scientifique est le meilleur moyen de produire de la vĂ©ritĂ© factuelle et pour l’utiliser, les donnĂ©es structurĂ©es sont indispensables.
PlutĂŽt que de rĂ©utiliser les donnĂ©es de l’administration, il faut crĂ©er ses propres bases de donnĂ©es. C’est seulement en dĂ©veloppant une statistique en dehors de l’Ă©tat que l’on est capable de mesurer le monde - y compris l’action de l’Ă©tat - en restant indĂ©pendant.
Combien de personnes ont-elles Ă©tĂ© tuĂ©es par la police? Ce nombre est-il en augmentation, en diminution? Ne cherchez pas la rĂ©ponse dans les donnĂ©es publiques, le ministĂšre de l’intĂ©rieur se moque bien de savoir qui la police tue (en revanche, vous trouverez des statistiques sur les policiers tuĂ©s). Ce sont les journalistes de Streetpress qui ont collectĂ© ces donnĂ©es et donnent la rĂ©ponse: 47 personnes dĂ©sarmĂ©es ont Ă©tĂ© tuĂ©es.14 Et comme des journalistes ont fait un travail similaire Ă l’Ă©tranger, on peut mettre ce chiffre dans son contexte. 47 tuĂ©s en 10 ans, c’est moins qu’aux Ătats-Unis, mais seulement deux fois moins (rapportĂ© au nombre d’habitants) alors que la France est un territoire beaucoup moins violent.15
Surtout, l’enquĂȘte de Streetpress a montrĂ© qu’aucun des policiers impliquĂ©s dans ces homicides n’a Ă©tĂ© condamnĂ©. Encore une statistique que le ministĂšre de la justice se garde bien de collecter. En Allemagne, des journalistes de ZEIT Online ont créé leur base de donnĂ©es sur le traitement judiciaire des incendies criminels dans les centres d’hĂ©bergements de personnes fuyant la guerre. Ils ont montrĂ© que les policiers et les juges ne prenaient pas souvent la peine d’enquĂȘter ou de juger ces affaires, comparĂ© aux autres crimes du mĂȘme type.16
Les données changent les perceptions
En crĂ©ant soi-mĂȘme des statistiques, on change la maniĂšre dont un problĂšme est perçu. En 2013, avec plusieurs journalistes europĂ©ens, nous avons créé une base de donnĂ©es des personnes mortes en essayant de venir ou de rester en Europe, The Migrants’ Files. Jusqu’alors, quasiment personne ne comptait ces dĂ©cĂšs. Un personne de l’administration française nous a mĂȘme dit que ce n’Ă©tait pas son problĂšme car “une fois mort, ce n’est plus un migrant”. En crĂ©ant cette base de donnĂ©es et en la mettant Ă disposition dans un format facile Ă rĂ©utiliser, The Migrants’ Files a permis, Ă une Ă©chelle trĂšs modeste, d’influencer le regard des institutions sur le sujet. Lorsqu’un bateau faisait naufrage ou qu’un homme se faisait abattre par des gardes-frontiĂšres, c’Ă©tait une anecdote. Avec des statistiques, ces morts peuvent ĂȘtre contextualisĂ©s. Ils ne sont plus des anecdotes, mais font partie d’un tout concret et mesurable. Et c’est parce qu’il est mesurable qu’il peut ĂȘtre l’objet d’une politique publique.
Dans tous les domaines, des choses importantes ne sont pas mesurĂ©es et, de ce fait, ignorĂ©es par le gouvernement. En commençant Ă les analyser avec des statistiques, on donne aux activistes des moyens d’agir et aux politiques des moyens de mesurer les rĂ©sultats de leur action. D’autres Ă©poques mettaient l’accent sur le rĂ©cit. Vous ne trouverez pas beaucoup de donnĂ©es chiffrĂ©es chez les muckrakers, les journalistes d’investigation amĂ©ricains du dĂ©but du 20e siĂšcle, ni chez Zola. Ni mĂȘme chez Engels, dans sa Situation de la classe ouvriĂšre en Angleterre en 1844. Aujourd’hui, le besoin de rĂ©cit n’a pas disparu, mais il s’accompagne d’un besoin de donnĂ©es. Et les exemples abondent de projets oĂč des rĂ©dactions ou des citoyens nourrissent le dĂ©bat public avec des jeux de donnĂ©es nouveaux et crĂ©dibles, comme les observation des niveaux de radioactivitĂ© de Safecast, ou bien les statistiques sur les violences raciales en Inde collectĂ©es par le Hindustan Times, ou encore le Indultometro, un observatoire des pardons prĂ©sidentiels en Espagne.17
RĂ©utiliser les donnĂ©es publiques, pourquoi pas. Mais l’Ă©thique journalistique, celle qui affirme que les journalistes participent de l’Ă©quilibre des pouvoirs, impose de crĂ©er et d’entretenir soi-mĂȘme des bases de donnĂ©es.
Notes
1. Lire ou Ă©couter Alain Supiot Ă ce sujet: Du gouvernement par les lois Ă la gouvernance par les nombres: En quĂȘte de la machine Ă gouverner.
2. Vauban, inventeur des recensements p.219. Un autre article intéressant sur les dénombrements de Vauban: Connaßtre et accroßtre les peuples du royaume: Vauban et la population.
3. The French population censuses: Purposes and uses during the 17th, 18th and 19th centuries p.101
4. Ce court et clair article résume trÚs bien le sujet: Savoir et pouvoir dans la grille de Foucault.
5. On retrouve ces dĂ©nombrements aux archives nationales de l’Outre-mer, e.g pour la Martinique.
6. Sur le sujet, je recommande le trĂšs bon GDP: A Brief but Affectionate History.
7. Les salaires et autre coĂ»ts de production, pour ĂȘtre prĂ©cis, comme indiquĂ© dans le document de rĂ©fĂ©rence sur le calcul du PIB, SystĂšme des Comptes 2010 p.66. Comme me l’a fait remarquer Denis Gouaux, leur valeur ajoutĂ©e n’est pas techniquement nulle, elle est constituĂ©e de leurs salaires uniquement.
8. Comme l’indique la base Etat4001 sur data.gouv.fr. Impossible d’avoir des donnĂ©es plus rĂ©centes
9. Les traficants, eux, ordonnent aux personnes qu’ils possĂšdent de se dĂ©clarer majeures. Retrouvez les dĂ©tails dans la newsletter de The Migrants’ Files.
10. Dans Conclusions du contrÎle du systÚme de traitement des infractions constatée, derniÚre page.
11. 70, c’Ă©tait en 2011, on doit ĂȘtre largement au delĂ . Source: Nicolas Sarkozy a créé 44 fichiers policiers.
12. Voir US federal department is censoring use of term ‘climate change’, emails reveal.
13. Voir Scientists copy climate change data in fear of a Trump crackdown.
14. Voir En 10 ans, 47 décÚs liés aux violences policiÚres, aucun fonctionnaire en prison.
15. DonnĂ©es sur les personnes tuĂ©es par la police: Washington Post (le dĂ©compte du Guardian arrive Ă un total diffĂ©rent, deux fois plus Ă©levĂ©) ; donnĂ©es sur le taux d’homicides: World Bank.
16. Voir Es brennt in Deutschland.
17. J’ai Ă©crit un plus long article en juillet 2017 sur ce sujet: Measuring the Unmeasured with Data.