Informer avec des données structurées
Cet essai est la base de ma prĂ©sentation Ă l’Ă©cole d’Ă©tĂ© de l’INRIA qui se tient Ă Marseille du 18 au 22 septembre 2016.
Depuis la fin des annĂ©es 2000, le terme de datajournalisme a Ă©mergĂ©. Certains mĂ©dias ont mis en place des Ă©quipes de datajournalisme. Des agences spĂ©cialisĂ©es se sont créées, comme celle que j’ai cofondĂ© en 2011, Journalism++. De nombreuses Ă©coles de journalisme offrent des cours de datajournalisme. Des confĂ©rences spĂ©cialisĂ©es ont lieu tous les ans. Si le concept a montrĂ© qu’il Ă©tait plus qu’un buzzword ou qu’une mode, il reste mal dĂ©fini. Certains y voient une “mythologie du chiffre”1. D’autres affirment que le datajournalisme consiste Ă “s’adresser Ă l’intelligence visuelle” de son audience2. Ces raccourcis passent Ă cĂ´tĂ© de l’essentiel. Faire du datajournalisme, c’est informer avec des donnĂ©es structurĂ©es. C’est l’utilisation de techniques statistiques, de visualisations et d’interactivitĂ© pour analyser et communiquer des donnĂ©es3.
Cet essai explique ce que le concept de datajournalisme recouvre, comment il est apparu et comment il influence le quotidien des rĂ©dactions. Surtout, il montre comment le datajournalisme s’intègre dans les processus d’information prĂ©-existant et l’impact social de cette manière d’informer.
Les données structurées
Le concept de donnĂ©es vient du latin datum et dĂ©signe un Ă©lĂ©ment utilisĂ© dans une argumentation. Il s’oppose ainsi Ă un fait (factum), qui est, lui, le rĂ©sultat de l’argumentation4. Cette distinction permet de comprendre qu’une donnĂ©e ne peut ĂŞtre rĂ©futĂ©e, elle est, simplement.
Une donnĂ©e peut reprĂ©senter n’importe quelle observation, quel que soit le format. En ce sens, toute production d’information se fonde sur des donnĂ©es, qui sont interprĂ©tĂ©es pour produire des faits. Lorsque l’on parle de journalisme de donnĂ©es, on Ă©voque implicitement le concept de donnĂ©es structurĂ©es. On parle de donnĂ©es structurĂ©es lorsque les points de donnĂ©es suivent un mĂŞme modèle. Chaque Ă©lĂ©ment d’information est une instance d’un modèle abstrait et gĂ©nĂ©ral. Le plus souvent, la structuration se fait dans un tableau, oĂą chaque ligne reprĂ©sente une instance et chaque colonne reprĂ©sente une dimension du problème observĂ©.
Un exemple de jeu de donnĂ©es structurĂ©es: Chaque ligne reprĂ©sente un accident de circulation, chaque colonne mesure une dimension (adresse, gravitĂ©, latitude, longitude etc.) de l’accident.
Il convient ici de rappeler que les donnĂ©es en elles-mĂŞmes ne suffisent jamais Ă interprĂ©ter correctement une situation. Sans analyser en profondeur les relations de pouvoir autour d’un problème, son environnement social et gĂ©ographique, impossible de s’approcher d’une quelconque vĂ©ritĂ©. C’est la raison pour laquelle le datajournalisme ne s’oppose nullement au “journalisme de terrain”, il le complète.
La structuration d’une rĂ©alitĂ© en un modèle abstrait permet de comparer entre elles des situations forcĂ©ment diffĂ©rentes parce que sĂ©parĂ©es dans le temps ou dans l’espace. En d’autres termes, la structuration de l’information permet de mesurer la rĂ©alitĂ© et de comprendre son Ă©volution. L’alternative (mesurer sans structurer les informations) se heurte aux limites biologiques des humains, qui, outre les limites de leur sens, sont sujets Ă de nombreux biais dans leur interprĂ©tation de la rĂ©alitĂ©. Un seul exemple: Les juges, dont le mĂ©tier consister Ă mesurer la gravitĂ© d’un fait, sont beaucoup plus clĂ©ments après avoir mangĂ© que lorsqu’ils ont faim. Leur sens de la mesure d’un dĂ©lit dĂ©pend plus de leur appĂ©tit que des faits reprochĂ©s au prĂ©venu5. Tout est dit6.
Les tentatives de mesure de la rĂ©alitĂ© ont dĂ©butĂ© Ă peu de choses près avec l’invention de l’Ă©criture. Le premier recensement, par exemple, a probablement eu lieu il y a 3 600 ans, Ă Athènes7. Mais ce n’est pas avant le milieu du 18e siècle que des mesures systĂ©matiques se mettent en place8. Le point de dĂ©part de la statistique peut ĂŞtre placĂ© au premier recensement moderne, en Suède, en 1749. Le terme de “statistique” commence Ă ĂŞtre utilisĂ© dans son sens actuel Ă la fin du 18e siècle.
La production de donnĂ©es structurĂ©es s’intensifie avec la rĂ©volution industrielle, au milieu du 19e siècle. Des formats spĂ©cifiques de communication des connaissances fondĂ©es sur ces donnĂ©es apparaissent au mĂŞme moment, c’est la visualisation de donnĂ©es. Partout oĂą des donnĂ©es sont produites, les intellectuels de l’Ă©poque s’en emparent pour les reprĂ©senter sous forme de graphiques.
L’une des premières visualisations de donnĂ©es, par William Playfair en 1821.
Au 19e siècle, la visualisation de donnĂ©es n’Ă©tait pas rĂ©servĂ©e Ă une Ă©lite. Au contraire, elles Ă©taient utilisĂ©es dans le but de communiquer une information9. William Playfair a utilisĂ© ses visualisations pour promouvoir les baisses d’impĂ´ts. Florence Nightingale, une nurse de l’armĂ©e britannique lors de la guerre de CrimĂ©e, a visualisĂ© les morts au combat par rapports aux morts de maladies infectieuses. Ses visualisations sont connues pour avoir convaincus les dĂ©cideurs britanniques de la nĂ©cessitĂ© de moderniser les hĂ´pitaux du pays10.
A mesure que le niveau d’Ă©ducation de la population gĂ©nĂ©rale augmente, les analyses et visualisations de donnĂ©es dĂ©passent les intellectuels et atteignent le grand public. Dès 1849, des journaux Ă grand tirage comme le New-York Tribune (Ă l’Ă©poque le plus important de New-York) publient des visualisations de donnĂ©es11. Au 20e siècle, la visualisation de donnĂ©es est utilisĂ©e pour communiquer des messages aux masses, comme en atteste son utilisation par sur les affiches du Parti Communiste, parti de masse s’il en est, en France ou en URSS.
Visualisation de donnĂ©es de l’inflation par le PCF en 1947.
L’utilisation de donnĂ©es structurĂ©es dans le dĂ©bat public ne se limite pas Ă la visualisation. Au dĂ©but du 20e siècle, entre 1900 et 1914, la première grande campagne d’activisme moderne se fonde, elle aussi, sur des analyses de donnĂ©es. En 1904, le journaliste britannique Edmund Morel publie Le règne du roi LĂ©opold en Afrique, dans lequel il dĂ©nonce l’esclavage Ă grande Ă©chelle pratiquĂ© pour le roi des Belges de l’Ă©poque, LĂ©opold 1er, au Congo12. Sa dĂ©couverte et son argumentation se fonde exclusivement sur l’analyse de la comptabilitĂ© de la colonie belge – Morel n’a jamais mis les pieds en Afrique. La campagne utilise ces preuves mais ne les visualise pas ; les Ă©lĂ©ments visuels utilisĂ©s sont des photos prises par Alice Seeley Harris, une missionnaire sur place13.
On le voit, la collecte et la visualisation de donnĂ©es n’a absolument pas attendu internet pour se dĂ©velopper. Depuis le milieu du 19e siècle, les donnĂ©es ont jouĂ© un rĂ´le dans la communication d’informations. Pourtant, jusqu’au dĂ©but des annĂ©es 2010, les donnĂ©es structurĂ©es sont utilisĂ©es par divers mĂ©tiers pour informer sans devenir un champ en soi. Il faut attendre l’Ă©mergence de la “science des donnĂ©es” (data science) en gĂ©nĂ©ral et du journalisme de donnĂ©es dans le domaine de l’information pour que le travail rĂ©alisĂ© avec des donnĂ©es structurĂ©es soit considĂ©rĂ© comme un ensemble cohĂ©rent et non plus une collection de compĂ©tences Ă©parses. On verra dans un instant pourquoi.
Le CAR, ancĂŞtre du datajournalisme
L’application des mĂ©thodes quantitatives des sciences sociales amĂ©ricaines au journalisme marque un premier tournant, dans les annĂ©es 1960, avec l’apparition du journalisme assistĂ© par ordinateur. MĂŞme s’il se fonde sur la puissance de calcul nouvellement offerte par l’informatique, ce tournant est surtout mĂ©thodologique. Philip Meyer en est le pionnier. En 1967, Meyer travaille au Detroit Free Press lorsque des Ă©meutes raciales embrasent la ville. Les Ă©ditorialistes sont alors prompts Ă attribuer la motivation des Ă©meutier Ă leur manque d’Ă©ducation. PlutĂ´t que de ce contenter de ces lieux communs, Meyer crĂ©e un sondage qui mesure le taux de participation aux Ă©meutes en fonction du niveau d’Ă©tude. Après analyse par ordinateur, une nouveautĂ© Ă l’Ă©poque, il montre que les personnes ayant fait des Ă©tudes ont participĂ© aux Ă©meutes dans les mĂŞmes proportions que les autres. La cause de la colère n’Ă©tait donc pas le manque d’Ă©ducation14. Cette enquĂŞte, qui utilise les mĂ©thodes des sciences sociales et la puissance de calcul des ordinateurs, marque le point de dĂ©part du journalisme assistĂ© par ordinateur ou computer assisted reporting (CAR). Meyer a ensuite, en 1970, thĂ©orisĂ© sa mĂ©thode dans un ouvrage de rĂ©fĂ©rence, Precision Journalism15.
Le journalisme assistĂ© par ordinateur se dĂ©veloppe aux États-Unis entre 1970 et 2010: La discipline est enseignĂ©e dans certaines Ă©coles de journalisme, une confĂ©rence professionnelle est créée en 1989 et plusieurs rĂ©dactions crĂ©ent des Ă©quipes spĂ©cialisĂ©es. Plusieurs enquĂŞtes “assistĂ©es par ordinateur” reçoivent le prestigieux prix Pulitzer. En 1989, des journalistes de l’Atlanta Journal-Constitution montrent que les banques de la ville prĂŞte cinq fois moins dans les quartiers noirs que dans les quartiers blancs Ă revenus Ă©quivalent16. En 1993, Stephen Doig, du Miami Herald, compare les forces des vents de l’ouragan Andrew de 1992 avec l’âge des bâtiments dĂ©truits et montre qu’Ă force de vent Ă©gale, certains bâtiments ont beaucoup moins bien rĂ©sistĂ© que d’autres. En d’autres termes, que les ravages de l’ouragan Ă©taient surtout dus Ă un problème dans l’approbation des permis de construire17. Cela lui vaut Ă©galement un prix Pulitzer. En 2001, le Boston Globe enquĂŞte sur les prĂŞtres pĂ©dophiles de la rĂ©gion ; les tableurs utilisĂ©s par ses journalistes ont Ă©tĂ© popularisĂ©s dans le film Spotlight en 2015.
MĂŞme s’il est reconnu par la profession, ce journalisme assistĂ© par ordinateur ne change pas les modes de travail des rĂ©dactions amĂ©ricaines. Il permet de faire du journalisme d’investigation plus efficacement, mais son impact ne va pas plus loin.
L’Ă©mergence du datajournalisme
Le datajournalisme en tant que discipline apparaĂ®t vĂ©ritablement en juin 2010. Des prĂ©misses Ă©taient visible quelques mois auparavant. Le Guardian a ouvert un Datablog en 2009, et je me prĂ©sentais dĂ©jĂ en tant que datajournaliste Ă cette Ă©poque18, mais le terme n’Ă©tait pas très usitĂ©. Surtout, l’Ă©quipe Rob Curley - Adrian Holovaty, premier vĂ©ritable exemple du genre (j’y reviens dans un instant), ne s’est jamais appelĂ© “datajournaliste”.
En juin 2010, Wikileaks publie les Afghan War Diaries, des extraits de documents internes aux armĂ©es de l’OTAN en Afghanistan. Une partie de la base de donnĂ©es source est mise en ligne, au format SQL. Le Guardian, le New-York Times et le Spiegel ont accès aux donnĂ©es en avance, mais les autres rĂ©dactions doivent se contenter de la base de donnĂ©es. C’est la première fois qu’un Ă©vĂ©nement d’actualitĂ© ne peut ĂŞtre explorĂ© qu’avec les compĂ©tences du datajournalisme. Le European Journalism Center, une organisation non-gouvernementale nĂ©erlandaise, se charge dans les semaines qui suivent de rassembler les personnes possĂ©dant ces compĂ©tences, en aoĂ»t 2010, lors de la Data-driven Journalism Roundtable d’Amsterdam, puis via un site internet, datadrivenjournalism.net.
Les compĂ©tences en question ne se limitent pas Ă celles du journalisme assistĂ© par ordinateur. Les Ă©quipes qui ont travaillĂ© sur les Afghan War Diaries devaient analyser les donnĂ©es, mais Ă©galement les visualiser et les publier, lĂ oĂą le journalisme assistĂ© par ordinateur s’arrĂŞtait Ă l’analyse. En plus de compĂ©tences en logiciels de tableur et en statistiques, les Ă©quipes de datajournalisme doivent pouvoir visualiser les donnĂ©es et les communiquer sur des Ă©crans, ce qui implique le dĂ©veloppement d’applications interactives. Le datajournalisme, c’est en fait la mise en commun des compĂ©tences du dĂ©veloppement web (crĂ©er des contenus et les publier sur internet) et du journalisme (vĂ©rifier des informations, trouver un angle et le raconter). Comme l’a dit Alan McLean, du New-York Times, en 2010, il suffit de faire en sorte que les dĂ©veloppeurs et les journalistes travaillent cĂ´te-Ă -cĂ´te pour que les compĂ©tences se mĂ©langent.
Les slides d’Alan McLean (Ă l’Ă©poque au New-York Times) lors de la confĂ©rence d’Amsterdam, en 2010.
Si le terme est apparu en 2010, les interactions entre dĂ©veloppeurs web et journalistes ont commencĂ© au milieu des annĂ©es 2000, dès que la technologie a rendu possible le fait qu’une personne ou une petite Ă©quipe puisse gĂ©rer l’ensemble de la chaĂ®ne de production, de l’acquisition des donnĂ©es jusqu’Ă leur analyse, leur visualisation et leur publication. Le meilleur exemple d’une telle Ă©quipe est celle mise en place par Rob Curley (un journaliste) au Lawrence Journal-World, un journal local au Kansas, parmi laquelle on trouve Adrian Holovaty (un dĂ©veloppeur)19. Bien qu’ils n’aient travaillĂ© ensemble que quelques annĂ©es, ils ont posĂ© les bases de ce que la relation dĂ©veloppeur-journaliste pouvaient apporter. Ils ont construit eux-mĂŞmes les outils qui leur manquaient pour publier sur le web, sans contracter une sociĂ©tĂ© externe ou un vendeur de système de gestion de contenu. Ils ont créé des bases de donnĂ©es sur les sujets les plus importants pour leur audience (notamment le sport Ă©tudiant), afin de couvrir le mieux possible les Ă©vĂ©nements locaux. Ils sont sortis complètement du carcan de l’article pour structurer le plus possible l’information et la formatter de la meilleure manière possible pour leur audience. Adrian Holovaty a racontĂ© cette dĂ©marche en 2006 dans un court article qui a fait date, A fundamental way newspaper sites need to change.
Informer
Dans le cadre de cet essai, le journalisme est considĂ©rĂ© comme Ă©tant l’activitĂ© de produire ou communiquer des informations vraies. Certaines rĂ©dactions publient dĂ©libĂ©rĂ©ment des informations fausses. Cette stratĂ©gie dĂ©coule parfois des choix politiques qui guident une rĂ©daction. Russie-1 est l’une des rĂ©dactions qui falsifie rĂ©gulièrement sa couverture de l’actualitĂ© pour suivre la politique Ă©ditoriale de ses mĂ©cènes20, mais on pourrait citer de nombreux autres cas. Publier de fausses informations peut faire partie intĂ©grante du modèle d’affaire d’une rĂ©daction. C’est le cas notamment du Daily Mail21. Enfin, une rĂ©daction peut choisir d’omettre dĂ©libĂ©rĂ©ment de mentionner un fait vĂ©ritable. C’est le cas par exemple du Daily Telegraph, qui a censurĂ© des articles mentionnant la banque HSBC afin de la conserver parmi ses clients22.
On peut utiliser des donnĂ©es structurĂ©es pour publier des informations fausses. On peut rĂ©utiliser sans les vĂ©rifier des informations fournies par une source peu fiable soit par conviction (rĂ©utilisation de donnĂ©es que l’on sait fausses), par incompĂ©tence (non-connaissance du manque de la fiabilitĂ© de la source) ou par choix (absence de processus de vĂ©rification de l’information). Certains y voient une faiblesse inhĂ©rente au datajournalisme. Cet argument oublie la nĂ©cessitĂ©, pour qualifier une information de “journalisme”, qu’elle soit vraie. Comme je l’ai montrĂ© plus haut, cet argument n’est en rien limitĂ© aux donnĂ©es structurĂ©es, il peut donc ĂŞtre ignorĂ©.
Un autre argument, avancĂ© parfois de conserve avec le prĂ©cĂ©dent, tient Ă l’impossibilitĂ© de dĂ©crire certaines situations par des chiffres. Les statistiques seraient une idĂ©ologie et seul le travail de terrain permettrait de comprendre vĂ©ritablement la rĂ©alitĂ©23. Outre que, comme je l’ai dit plus haut, les donnĂ©es structurĂ©es seules ne peuvent expliquer quoi que ce soit, ceux qui voient dans les chiffres une idĂ©ologie se bornent Ă utiliser un biais cognitif bien connu, celui de l’heuristique de disponibilitĂ©. Cette règle de psychologie affirme que les humains prennent plus volontiers les informations qu’ils ont en leur possession pour Ă©tablir un jugement, plutĂ´t que des informations nouvelles. C’est la raison pour laquelle nous pouvons avoir plus peur des accidents d’avion, dont on entend assez souvent parler, que des accidents automobiles, quand bien mĂŞme nous savons que les seconds sont beaucoup plus frĂ©quents que les premiers. Il est facile pour un orateur de trouver un seul exemple bien connu de son auditoire pour contrer une analyse statistique rigoureuse portant sur des milliers de cas inconnus24.
Informer, cela signifie aider son audience Ă donner du sens Ă son environnement et aux Ă©vĂ©nements qui la touchent. La publication de chiffres sans Ă©lĂ©ment de contextualisation, par exemple, ne saurait ĂŞtre considĂ©rĂ© comme de l’information.
La chaĂ®ne de valeur de l’information
Trois Ă©tapes sont nĂ©cessaires pour informer avec des donnĂ©es structurĂ©es: La collecte, l’analyse et la communication. Il est frĂ©quent de comparer cette chaĂ®ne de valeur avec l’industrie minière: les donnĂ©es, lors de leur collecte, seraient du minerai brut, inutilisable sans ĂŞtre raffinĂ©. Le matĂ©riau raffinĂ© (des donnĂ©es nettoyĂ©es dans un cas, de l’acier, par exemple, dans l’autre) aurait plus de valeur, mais devrait encore ĂŞtre recombinĂ© pour arriver au produit fini (la connaissance - une voiture) qui, lui, a le plus de valeur. Cette mĂ©taphore est attirante et rĂ©pandue (on parle de “datamining” pour parler d’analyse statistique) mais elle a une faille de taille. En faisant des donnĂ©es une matière première comme du minerai, elle suppose que les donnĂ©es existent Ă l’Ă©tat brut. Le concept de “donnĂ©e brute” est faux et dangereux. Il est faux car toute donnĂ©e provient d’une activitĂ© humaine. La donnĂ©e n’existe pas Ă l’Ă©tat naturel, il faut un système humain pour qu’elle apparaisse. Il est dangereux car en faisant de la donnĂ©e un phĂ©nomène naturel, il incite les professionnels de l’information Ă ne pas s’interroger sur le mode de collecte des donnĂ©es, dont dĂ©coule pourtant toutes les analyses possibles.
Collecter
La crĂ©ation de donnĂ©es structurĂ©es nĂ©cessite de dĂ©finir un modèle qui simplifie la rĂ©alitĂ©. C’est lĂ que les dĂ©finitions sont Ă©tablies sur ce que l’on mesure et ce que l’on ne mesure pas. Pour les praticiens, l’Ă©cueil le plus important Ă cette Ă©tape est de mesurer tout ce qui peut l’ĂŞtre. Or l’Ă©conomie de la collecte de donnĂ©es est telle que seules les donnĂ©es apportant un bĂ©nĂ©fice eut Ă©gard de l’objectif poursuivi doivent ĂŞtre prises en compte. La collecte en elle-mĂŞme peut prendre plusieurs formes.
Structuration manuelle. Cette technique de collecte consiste Ă crĂ©er des donnĂ©es structurĂ©es Ă partir d’Ă©lĂ©ments non structurĂ©s, quels qu’ils soient. Le projet The Migrants’ Files, coordonnĂ© par Journalism++, en est un bon exemple25. Une table recense tous les Ă©vĂ©nements lors desquels des hommes, des femmes ou des enfants sont morts en essayant de rejoindre ou de rester en Europe. Chaque ligne de la table reprĂ©sente un Ă©vĂ©nement, dĂ©fini sous plusieurs dimensions: date, lieu, type (noyade, assassinat etc.), description, nombre de victimes. Les informations proviennent d’articles de presse, de publications sur les rĂ©seaux sociaux ou encore d’appels passĂ©s directement Ă diverses organisations. La nature des Ă©vĂ©nements pris en compte rend toute automatisation est impossible26. Les informations publiĂ©es sont très peu structurĂ©es (les Ă©vĂ©nements varient grandement en qualitĂ©) et les articles les mentionnant peuvent ĂŞtre contradictoires (un naufrage peut donner lieu Ă plusieurs articles Ă©talĂ©s dans le temps, qui s’affinent au fur et Ă mesure que les informations parviennent aux rĂ©dactions). Le travail de structuration doit ĂŞtre fait Ă la main. The Counted27, un projet du Guardian qui mesure les victimes de la police amĂ©ricaine, collecte ses donnĂ©es de la mĂŞme manière.
Aspiration de donnĂ©es. L’aspiration de donnĂ©es ou “web scraping” consiste Ă Ă©crire des programmes informatiques qui acquièrent et structurent des informations publiĂ©es ailleurs sur internet. L’observatoire des loyers en Europe, Rentswatch (un projet de Journalism++) se nourrit en partie d’informations collectĂ©es automatiquement par des scrapers. Cette technique d’acquisition de donnĂ©e nĂ©cessite des compĂ©tences de programmation informatiques, notamment la maĂ®trise de librairies spĂ©cialisĂ©es comme BeautifulSoup (Python), Nokogiri (Ruby) ou Selenium (Javascript). Une fois en place, ces scrapers permettent de collecter des donnĂ©es Ă un coĂ»t marginal quasi nul.
Crowdsourcing. Ce mot-valise constituĂ© de “crowd” - la foule - et “outsourcing” - la sous-traitance - dĂ©signe la collecte d’information distribuĂ©e entre plusieurs utilisateurs. En gĂ©nĂ©ral, l’organisation qui collecte les donnĂ©es lance un appel Ă contributions afin que des utilisateurs fournissent volontairement des donnĂ©es en leur possession. Rentswatch, la base de donnĂ©es des loyers prĂ©cĂ©demment citĂ©e, fonctionne en partie grâce aux informations fournies par les utilisateurs. Le Prix de l’Eau, un projet menĂ© en 2011 par OWNI.fr, demandait aux participants de tĂ©lĂ©charger leur facture d’eau afin de crĂ©er une base de donnĂ©es du prix de l’eau en France.
Capteurs. La diminution du coĂ»t des composants Ă©lectronique permet Ă n’importe quelle organisation de dĂ©ployer son propre rĂ©seau de capteurs. Le Hindustan Times, Ă Delhi, met en place des capteurs de pollution atmosphĂ©rique pour pallier Ă la piètre qualitĂ© des mesures officielle28. Aux États-Unis, la radio WNYC a alliĂ© capteurs et crowdsourcing en 2013, en invitant ses auditeurs Ă construire des thermomètres pour suivre l’arrivĂ©e des cigales dans l’Ă©tat de New-York29.
Cette typologie de la collecte de donnĂ©es structurĂ©es n’est en rien spĂ©cifique au datajournalisme. De nombreuses institutions et entreprises collectent des donnĂ©es pour mener Ă bien leurs missions. Elles peuvent ensuite les publier ou, le plus souvent, les transmettre Ă un agrĂ©gateur qui les publie (en France, c’est l’INSEE qui s’en charge).
Cependant, la collecte implique l’existence d’un modèle, qui simplifie, par dĂ©finition, la rĂ©alitĂ©. La crĂ©ation de ce modèle dĂ©fini le sens que l’on pourra extraire des donnĂ©es lors de leur analyse. Utiliser des donnĂ©es collectĂ©es par d’autres, c’est se soumettre Ă leur vision de la rĂ©alitĂ©. C’est perdre le pouvoir d’abstraire la rĂ©alitĂ© selon son propre modèle. Les catĂ©gories dĂ©cidĂ©es par le collecteur des donnĂ©es fixent la liste les analyses possibles par la suite. Le recensement de la population effectuĂ© par l’INSEE, par exemple, ne mesure que certaines des dimensions que l’on pourrait mesurer pour chaque mĂ©nage ou chaque individu (la couleur de peau des individus, par exemple, en est soigneusement exclue, ce qui interdit toute mesure de la discrimination ou de la sĂ©grĂ©gation raciale). Les mĂ©thodes statistiques utilisĂ©es pour choisir les Ă©chantillons mesurĂ©s jouent Ă©galement beaucoup sur les donnĂ©es finalement disponibles30.
La collecte de donnĂ©es est lĂ oĂą les sens possibles de l’analyse sont dĂ©cidĂ©s. C’est donc nĂ©cessairement l’Ă©tape la plus importante de la chaĂ®ne de valeur de l’information par les donnĂ©es structurĂ©es. Toute organisation se donnant pour but d’informer avec des donnĂ©es structurĂ©es doit se doter de capacitĂ©s de collecte de donnĂ©es31.
Analyser
L’analyse consiste Ă transformer des donnĂ©es - infalsifiables - en faits - falsifiables - et ainsi Ă produire de la connaissance. La manière la plus efficace d’analyser les donnĂ©es reste de formuler une hypothèse, puis de la tester. Comme l’a dit le datajournaliste Steven Doig, l’auteur de l’enquĂŞte sur l’ouragan Andrew, le datajournalisme, c’est faire des sciences sociales au rythme du journalisme (“social science on a deadline”)32.
Le plus souvent, l’analyse s’effectue manuellement, en utilisant des logiciels de tableur. De simples classements ou la crĂ©ation de ratios peuvent dĂ©jĂ indiquer quels sont les Ă©lĂ©ments d’un jeu de donnĂ©es qui s’Ă©loignent de la moyenne et qui pourraient ĂŞtre le point de dĂ©part d’un article. Certaines analyses peuvent ĂŞtre beaucoup plus poussĂ©es. Nate Silver, un statisticien, est cĂ©lèbre pour avoir prĂ©dit en 2008 le rĂ©sultat de l’Ă©lection prĂ©sidentielle amĂ©ricaine pour chacun des 50 Ă©tats33. Il a ensuite Ă©tĂ© embauchĂ© par le New-York Times (il dirige dĂ©sormais fivethirtyeight, son propre mĂ©dia de datajournalisme).
Plusieurs Ă©quipes s’essayent Ă l’automatisation de l’analyse. Marple, un produit dĂ©veloppĂ© par Journalism++ Stockholm, recherche automatiquement les pics dans les donnĂ©es locales de criminalitĂ© en Suède pour trouver des informations qui auraient pu Ă©chapper aux journalistes locaux. Narrative Science, une sociĂ©tĂ© amĂ©ricaine, commercialise un logiciel qui, Ă partir des donnĂ©es d’une rencontre sportive, utilise les statistiques historiques des joueurs pour trouver les faits saillants du match. Lors d’un concours contre un journaliste humain, le logiciel a trouvĂ© des angles qui avaient Ă©chappĂ© au journaliste34.
Communiquer
La communication de la connaissance nouvellement créée est le dernier maillon de la chaĂ®ne. (On peut Ă©galement utiliser la visualisation de donnĂ©es lors de l’analyse, mais ce n’est pas l’objet de cet argument). C’est lĂ que la visualisation de donnĂ©es peut jouer un rĂ´le. Les visualisations les plus simples sont les plus efficaces. Edward Tufte, professeur Ă l’universitĂ© de Yale, aux Etats-Unis, rĂ©sume ce concept en parlant de ratio entre la quantitĂ© de donnĂ©es affichĂ©es et la quantitĂ© d’encre nĂ©cessaire Ă leur impression (data-ink ratio). Plus le ratio est Ă©levĂ© (beaucoup de donnĂ©es, peu d’encre), plus le rĂ©sultat sera efficace35. Les règles de la visualisation efficace des donnĂ©es n’ont pas changĂ©es depuis qu’elles ont Ă©tĂ© Ă©tablies dans les annĂ©es 1990 par les infographistes36.
Certains praticiens, aidĂ©s en partie par l’accessibilitĂ© de nouveaux logiciels (Processing, D3.js), ont dĂ©veloppĂ© des visualisations plus complexes. C’est le cas notamment de David McCandless, auteur de l’ouvrage Datavision. La transmission du message passe souvent au second plan de ces types de visualisation, au profit de l’esthĂ©tique ou de l’Ă©merveillement recherchĂ©. Dès lors, on ne peut plus parler d’information, mais d’art visuel.
Il n’existe malheureusement pas d’Ă©tude systĂ©matique sur la lisibilitĂ© et comprĂ©hensibilitĂ© des diffĂ©rents types de visualisation de donnĂ©es. Quelques Ă©tudes montrent cependant que les visualisations en 2 dimensions sont mieux retenues que celles en 3 dimensions37 ou que les prĂ©sentations en barres empilĂ©es ou en graphiques circulaires sont moins bien comprises que les tableaux ou les prĂ©sentations en icĂ´nes (voir l’illustration ci-dessous)38.
Lors de l’expĂ©rience de Elting et al., des mĂ©decins devaient prendre des dĂ©cisions en se fondant sur ces visualisations. 82% des mĂ©decins ont pris la bonne dĂ©cision avec la visualisation en icĂ´nes (en bas Ă droite), 68% avec les tableaux, 56% avec les graphiques circulaires et 43% avec les barres empilĂ©es.
La visualisation n’est qu’un mode de communication parmi d’autres. Certaines Ă©quipes de datajournalisme ne disposent pas de graphistes. Celle du Times de Londres, par exemple, est de celles-lĂ . Elle se voit comme un fournisseur de contenus pour les journalistes traditionnels, qui, eux, sauront communiquer l’information efficacement.
Les organisations produisant de l’information avec des donnĂ©es structurĂ©es peuvent se placer Ă divers niveau de cette chaĂ®ne. Des entreprises comme Opta, dans le sport ou WĂĽest & Partners dans l’immobilier collectent des quantitĂ©s massives de donnĂ©es qui sont ensuite vendues et parfois utilisĂ©es pour informer. Les think-tanks et quelques journalistes utilisent des donnĂ©es collectĂ©es par d’autres pour mener Ă bien des analyses. Les infographistes et certaines agences spĂ©cialisĂ©es dans la visualisation de donnĂ©es se concentrent sur la communication.
MĂŞme si une entreprise peut se positionner Ă diffĂ©rents niveaux de la chaĂ®ne de crĂ©ation de valeur, le rĂ´le crucial (et fondamentalement diffĂ©rent du minerai) de la collecte de donnĂ©es fait que seule l’intĂ©gration verticale permet de maĂ®triser l’information communiquĂ©e.
Le rôle sociétal du datajournalisme
La nouveautĂ© du datajournalisme repose sur le fait qu’une organisation ou un individu peut, avec de très faibles ressources, aller d’un bout Ă l’autre de la chaĂ®ne de crĂ©ation de valeur. C’est la raison pour laquelle le datajournalisme peut se dĂ©finir comme l’action de mesurer ce qui ne l’est pas encore et qui devrait l’ĂŞtre, tout comme le journalisme traditionnel peut se dĂ©finir comme l’action de donner la parole aux sans-voix. Le fait de pouvoir, pour toute personne, mesurer un phĂ©nomène de manière rigoureuse, est très nouveau. Il permet de concurrencer les mesureurs officiels qui, jusqu’Ă prĂ©sent, avaient le monopole de la mesure de la rĂ©alitĂ©.
Un phĂ©nomène non mesurĂ© se limite Ă une suite d’anecdotes. Il est impossible de savoir si le phĂ©nomène augmente ou diminue en frĂ©quence ou en intensitĂ©. Il est impossible de savoir si l’action des pouvoirs publics ou des acteurs privĂ©s influence la rĂ©alitĂ© d’une manière ou d’une autre. L’administration peut tout Ă fait dĂ©cider d’arrĂŞter la mesure d’un phĂ©nomène. C’est ce qu’a dĂ©cidĂ©, par exemple, le gouvernement britannique, qui ne mesurera plus la pauvretĂ© infantile suite aux rĂ©sultats catastrophiques des politiques menĂ©es39.
L’administration peut Ă©galement dĂ©cider de na pas mesurer un phĂ©nomène, quand bien mĂŞme elle y est lĂ©galement obligĂ©e. C’est le cas par exemple des donnĂ©es sur la mortalitĂ© des rĂ©fugiĂ©s qui se rendent en Europe. Bien qu’obligĂ©e par le Parlement EuropĂ©en de rĂ©duire la mortalitĂ© (et, partant, de la mesurer)40, la Commission EuropĂ©enne n’a jamais pris la peine de compter le nombre de rĂ©fugiĂ©s mourant en venant en Europe.
L’administration peut enfin dĂ©cider de sciemment mal mesurer un phĂ©nomène. Prenons l’inflation. La thĂ©orie Ă©conomique veut que, lorsque plus de monnaie entre en circulation dans une Ă©conomie donnĂ©e, les prix augmentent41. Certains observateurs pointent du doigt l’incohĂ©rence entre l’absence d’inflation et l’augmentation des liquiditĂ©s en circulation dans le système Ă©conomique europĂ©en depuis le dĂ©but du programme d’assouplissement quantitatif (quantitative easing)42. Cette dissonance n’est pas liĂ©e Ă la thĂ©orie Ă©conomique, qui cesserait brutalement de fonctionner. Elle est liĂ©e Ă la mesure de l’inflation, qui se concentre sur des dĂ©penses de l’EuropĂ©en moyen. Or, l’inflation actuelle concerne exclusivement les EuropĂ©ens les plus riches. Les prix de l’art, du vin d’investissement, de l’immobilier et des produits financiers augmentent tous, parfois dans des proportions considĂ©rables (le prix du vin d’investissement a augmentĂ© de 8% par an depuis 2007, par exemple43). En ignorant le dĂ©couplage de l’Ă©conomie, partagĂ©e entre stagnation et rĂ©cession de la majoritĂ© et dynamisme d’une minoritĂ© de super-riches, les instituts de mesure empĂŞchent d’analyser correctement les consĂ©quences de l’assouplissement quantitatif.
On le voit, l’administration n’est pas toujours la mieux placĂ©e pour mesurer les consĂ©quences de ses propres politiques. L’indĂ©pendance des instituts de mesure, si elle est parfois inscrite dans la loi44 peut ĂŞtre remise en cause de multiples manière. La loi peut par exemple spĂ©cifier la mĂ©thodologie d’une mesure. C’est la cas pour l’indice de revalorisation des pensions, en France, qui est supposĂ© reflĂ©ter l’inflation mais ne peut - lĂ©galement - prendre en compte le tabac. Cela Ă©vite au gouvernement de revaloriser les pensions alors qu’il augmente considĂ©rablement le prix des cigarettes. Par ailleurs, la dĂ©pendence financière des instituts de mesure vis-Ă -vis du gouvernement rĂ©duit grandement leur capacitĂ© Ă Ă©tablir indĂ©pendamment ses mesures45.
Le datajournalisme peut, en collectant, analysant et communiquant des donnĂ©es structurĂ©es, apporter un contrepoids aux mesures officielles. The Migrants’ Files, prĂ©cĂ©demment Ă©voquĂ©, a servi de point de dĂ©part au travail de collecte de donnĂ©es de l’Organisation Internationale des Migrations, un organisme financĂ© par les Ă©tats. The Counted, le projet du Guardian de mesure des victimes de la police, a poussĂ© le FBI Ă modifier la manière dont il compte le nombre de victimes. The Woman Tax, un projet de Journalism++ visant Ă mesurer les diffĂ©rences de prix des produits genrĂ©s, a Ă©tĂ© repris par les rapporteurs du gouvernement sur le sujet46.
Les équipes de datajournalisme
Pour faire du datajournalisme, une organisation doit pouvoir collecter, analyser et communiquer des donnĂ©es structurĂ©es. Les compĂ©tences nĂ©cessaires sont multiples: dĂ©veloppement informatique, statistiques, expertise thĂ©matique, design graphique. Parce que les projets Ă rĂ©aliser peuvent varier en taille et en compĂ©tences nĂ©cessaires, parce qu’il faut souvent collaborer avec d’autres domaines (universitĂ©s, administration, entreprises) ou d’autres rĂ©dactions47, il est impossible de travailler en flux, oĂą les tâches Ă rĂ©aliser sont identiques d’une pĂ©riode sur l’autre. Le travail “en mode projet” est indispensable, mais il ne s’intègre pas facilement aux processus de crĂ©ation de l’information des rĂ©dactions traditionnelles. Pour travailler en mode projet, la compĂ©tence de gestion de projet devient la plus centrale. Or cette compĂ©tence est souvent absente des rĂ©dactions traditionnelles et les Ă©coles de journalisme ne l’intègrent pas Ă leur cursus.
On l’a vu, la compĂ©tence-clĂ© du datajournalisme est le dĂ©veloppement informatique. La culture de l’univers de la programmation est sensiblement diffĂ©rente de celle du journalisme traditionnel. LĂ oĂą le journaliste idĂ©alise le travail solitaire de longue haleine, les dĂ©veloppeurs privilĂ©gient la collaboration. LĂ oĂą le journaliste agit dans le secret, les dĂ©veloppeurs privilĂ©gient l’ouverture de leur travail (l’open source). LĂ oĂą le journaliste publie une fois pour toutes, les dĂ©veloppeurs enrichissent leur travail des retours des utilisateurs ou de leurs pairs. Cette diffĂ©rence culturelle, qui s’ajoute Ă une diffĂ©rence de processus de crĂ©ation de l’information, freine considĂ©rablement l’adoption du datajournalisme dans les rĂ©dactions.
L’entre-soi des journalistes, rĂ©el ou ressenti, nuit Ă©galement Ă l’ouverture des rĂ©dactions Ă d’autres compĂ©tences. L’incapacitĂ© de certains journalistes issus d’Ă©coles “reconnues par la profession” Ă accepter que l’on puisse faire du journalisme en ayant Ă©tudiĂ© la programmation informatique les empĂŞche de dĂ©velopper des liens professionnels forts avec les dĂ©veloppeurs. Il n’est pas rare qu’un datajournaliste, une fois embauchĂ©, se retrouve dans un rĂ´le de support technique auprès de ses collègues.
Certaines rĂ©dactions, après avoir embauchĂ© des datajournalistes, leur ont attribuĂ© le titre de “documentaliste”. D’autres ont mis en place des Ă©quipes constituĂ©es de dĂ©veloppeurs, graphistes et journalistes/chefs de projets, mais n’ont pas institutionnalisĂ© cette organisation (en ne nommant pas de responsable d’Ă©quipe, notamment), rendant la structure instable et inefficace. Ces tâtonnements ont empĂŞchĂ© ces rĂ©dactions de capitaliser sur les expĂ©riences menĂ©es. Parallèlement, plusieurs Ă©coles de journalisme ont ajoutĂ© des cours de datajournalisme Ă leur cursus dès le dĂ©but des annĂ©es 2010 mais n’ont pas changĂ© leur mĂ©thodes de recrutement (pour former des Ă©tudiants issus de filières informatiques et techniques) ni leurs mĂ©thodes d’apprentissage, limitant grandement la portĂ©e des cours de datajournalisme.
Ces limites sont en partie propres Ă la France. En Europe, des cursus spĂ©cialisĂ©s dans le datajournalisme existent. Unidad Editorial, Ă Madrid, propose l’un des meilleurs master dans le domaine. Les universitĂ©s de Birmingham (Royaume-Uni) et Tilburg (Pays-Bas) ont Ă©galement des cursus spĂ©cialisĂ©s.
Surtout, peu d’organismes de presse français forment de vĂ©ritables entreprises Ă but lucratif. La plupart n’existent que pour satisfaire les dĂ©sirs politiques d’oligarques. Xavier Niel, patron de Free et propriĂ©taire du Monde, du Nouvel Observateur et investisseur dans de nombreux autres mĂ©dias, rĂ©sumait sa stratĂ©gie d’investissement en ces termes: “Quand les journalistes m’emmerdent, je prends une participation dans leur canard et ensuite ils me foutent la paix."48 Face Ă de tels propriĂ©taires, les rĂ©dactions françaises n’ont aucun intĂ©rĂŞt Ă prendre des risques pour faire Ă©voluer leurs techniques de production. Ailleurs en Europe, des entreprises mĂ©diatiques dont la mission est de crĂ©er de la richesse en produisant de l’information ont su intĂ©grer le datajournalisme Ă leurs rĂ©dactions. Le groupe allemand Funke, par exemple, a Ă©tabli une Ă©quipe de datajournalisme au Berliner Morgenpost, l’un de ses titres locaux. L’Ă©quipe de Berlin est chargĂ©e de rĂ©aliser des projets de datajournalisme qui sont ensuite adaptĂ©s aux autres titres du groupe. En Pologne, le groupe Agora (propriĂ©taire entre autre de Gazeta Wyborzca) a lancĂ© BIQ Data, une section spĂ©cialisĂ©e (et payante) dans le datajournalisme.
Les Ă©pisodes marquants du datajournalisme dans les rĂ©dactions, notamment les enquĂŞtes faisant suite Ă des base de donnĂ©es fournies par des lanceurs d’alertes (Cablegate en 2010, SwissLeaks en 2015 ou les Panama Papers en 2016), font prendre conscience de la nĂ©cessitĂ© de faire Ă©voluer les processus de crĂ©ation de l’information. Ce fut le cas par exemple au SĂĽddeutsche Zeitung en 2015. Après avoir reçu les documents des Panama Papers, les enquĂŞteurs de la rĂ©dactions se sont rendu compte de leur incapacitĂ© Ă traiter efficacement ce type d’information et ont du recruter une datajournaliste.
D’une nouveautĂ© incongrue en 2010, le datajournalisme est devenu une discipline Ă part entière. Si certaines rĂ©dactions, surtout en France, peinent Ă l’adopter, d’autres le mette Ă profit pour mener des enquĂŞtes et rĂ©aliser des produits attirants pour leur audience. Surtout, les compĂ©tences du datajournalisme dĂ©bordent du théâtre traditionnel de l’information. Des agences, comme Journalism++ ou OpenDataCity, jouent un rĂ´le central en crĂ©ant des contenus Ă©ditoriaux et en formant journalistes et dĂ©cideurs. Des organismes amĂ©ricains Ă but non-lucratif, comme le consortium international des journalistes d’investigation (ICIJ) ou le centre d’enquĂŞte sur le crime organisĂ© et la corruption (OCCRP), fournissent des compĂ©tences manquantes aux rĂ©dactions europĂ©ennes. Enfin, des scientifiques, des associations et divers groupes s’approprient les techniques du datajournalisme et produisent eux-mĂŞme des donnĂ©es et des analyses49.
La capacitĂ© Ă quiconque de publier est amenĂ©e Ă disparaĂ®tre Ă mesure que les plateformes (Facebook, Google) donnent la prioritĂ© aux entreprises approuvĂ©es et Ă mesure, surtout, que les entreprises de tĂ©lĂ©com (Free, SFR) acquièrent des marques de presse et bloquent les contenus en provenance d’autres sources. Mais malgrĂ© ce rĂ©trĂ©cissement des canaux de diffusion, le datajournalisme pourra continuer Ă ĂŞtre pratiquĂ© au sein et en dehors des rĂ©dactions. En effet, on a vu que la communication ne reprĂ©sentait qu’une partie du travail du datajournalisme - et pas la plus importante. Par ailleurs, le financement du datajournalisme en Europe ne passe que peu par la publicitĂ©, si bien que les restrictions de diffusion n’impacteront que faiblement les praticiens.
Notes
1. C’Ă©tait la position de Guillaume Narvic, un essayiste spĂ©cialisĂ© dans l’Ă©tude des mĂ©dias, en 2010, par exemple, exprimĂ© dans cet Ă©change avec Jean-Christophe FĂ©raud.
2. C’Ă©tait en 2012 la position de Caroline Goulard, fondatrice de la sociĂ©tĂ© Dataveyes, exprimĂ© dans Le Data Journalisme pour les nuls
3. C’est la dĂ©finition de Tanja Aitamurto, chercheur finlandaise spĂ©cialiste du sujet, donnĂ©e en 2011 dans Trends In Data Journalism.
4. Lire Ă ce sujet le premier chapitre de Raw Data Is An Oxymoron, Data before the Fact, de Daniel Rosenberg.
5. L’Ă©tude concerne 1 112 jugements dans des tribunaux israĂ©liens. Lire Extraneous factors in judicial decisions.
6. Pour une présentation plus détaillée des biais auxquels nous sommes sujets, lire How Information Graphics Reveal Your Brain’s Blind Spots.
7. Voir Cecrops, King of Athens: the First (?) Recorded Population Census in History.
8. La comptabilitĂ© moderne, Ă double entrĂ©e, est utilisĂ©e depuis le dĂ©but de la Renaissance. MĂŞme si les concepts utilisĂ©s peuvent ĂŞtre considĂ©rĂ©s comme statistiques (simplification de la rĂ©alitĂ© et crĂ©ation d’abstraction Ă des fins de comparaison), ces donnĂ©es ne semble pas avoir Ă©tĂ© utilisĂ©es Ă des fins de crĂ©ation de connaissance avant le 18e siècle.
9. Voir notamment cette sélection des visualisations de données marquantes du 19e siècle.
10. Exemples tirĂ©s de la prĂ©sentation Florence Nightingale’s statistical diagrams.
11. Lire The Above Chart Manifesto de Scott Klein.
12. Le livre est en accès libre sur OpenLibarary.org.
13. L’histoire de cette campagne est brillament racontĂ©e dans Les fantĂ´mes du roi LĂ©opold, Un holocauste oubliĂ©
14. Regarder la vidéo Reading the Riots: how the 1967 Detroit riots were investigated.
15. Lire en ligne l’Ă©dition rĂ©visĂ©e en 1991 The New Precision Journalism.
16. Les articles de l’enquĂŞte sont disponibles sur The Color of Money
17. Lire Complete Scans of “What Went Wrong”: The Pulitzer Prize-Winning Special Section of the Miami Herald, December 20, 1992
18. Par exemple ici, dans un de mes premiers articles pour OWNI.fr: Le datajournalisme pour incarner l’histoire.
19. Curley raconte dans Holovaty stepping out on his own sa relation de travail avec Holovaty.
20. Comme lorsque la chaĂ®ne affirme que les troupes soviĂ©tiques sont intervenues Ă Prague en 1968 pour protĂ©ger le pays d’une invasion des forces de l’OTAN, par exemple. Lire Ă ce sujet Russian 1968 Prague Spring Invasion Film Angers Czechs, Slovaks
21. Lire notamment Ă ce sujet My Year Ripping Off the Web With the Daily Mail Online
22. Tel que racontĂ© par Peter Osborne lors de sa dĂ©mission. Lire Telegraph’s Peter Oborne resigns, saying HSBC coverage a ‘fraud on readers’
23. On en trouve un bon example dans cette tribune de 2006, L’idĂ©ologie des chiffres.
24. L’industrie cigarettière a Ă©tĂ© pionnière dans l’utilisation de cette mĂ©thode Ă grande Ă©chelle, comme l’a montrĂ© Robert Proctor dans Golden Holocaust, en mettant en avant des fumeurs âgĂ©s et bien portants pour dĂ©crĂ©dibiliser les analyses Ă©pidĂ©miologiques.
25. Voir migrantsfiles.com, où les données sources sont disponibles.
26. Le programme de recherche PULS essaye de structurer automatiquement les contenus des articles sur le sujet des migrations mais les donnĂ©es qu’il acquièrent sont tellement pleines de doublons et de contre-sens qu’elles en sont inexploitables.
27. Voir en ligne The Counted.
28. Voir en ligne airquality.hindustantimes.com
29. Voir en ligne le Cicadas Tracker
30. Voir Ă ce sujet les consĂ©quences de l’Ă©chantillonage pratiquĂ© lors du recensement aux Etats-Unis: Should statistical sampling be used in the United States Census?
31. Voir Ă ce sujet mon essai ‘Free your data’ is over. Now, we need data to be free.
32. “Social science done on deadline”: Research chat with ASU’s Steve Doig on data journalism
33. Voir Ă ce sujet Nate Silver’s Election Predictions a Win for Big Data, The New York Times
34. We Heard From The Robot, And It Wrote A Better Story About That Perfect Game
35. Voir une illustration de ce concept: Data Looks Better Naked
36. L’ouvrage de rĂ©fĂ©rence reste The Wall Street Journal Guide to Information Graphics: The Do’s and Don’ts of Presenting Data, Facts, and Figures, de Dona Wong.
37. Keller, Tanja, and Matthias Grimm. The Impact of Dimensionality and Color Coding of Information Visualizations on Knowledge Acquisition. Lecture Notes in Computer Science Knowledge and Information Visualization (2005): 167-82.
38. Elting, L. S., C. G. Martin, S. B. Cantor, and E. B. Rubenstein. Influence of Data Display Formats on Physician Investigators’ Decisions to Stop Clinical Trials: Prospective Trial with Repeated Measures. Bmj 318.7197 (1999): 1527-531
39. Lire Ă ce sujet Tory plan to redefine child poverty as figures set to show first rise in decade.
40. C’est l’article 3-b du règlement EUROSUR de 2013.
41. C’est la thĂ©orique quantitative de la monnaie, formulĂ©e au 16e siècle et toujours acceptĂ©e aujourd’hui par la plupart des Ă©conomistes.
42. Voir par exemple ECB quantitative easing probably won’t bring inflation up to target: economists
43. Voir le Liv-Ex indices
44. C’est la cas pour l’INSEE, comme en dispose l’article 1 de la Loi n° 51-711 du 7 juin 1951 sur l’obligation, la coordination et le secret en matière de statistiques.
45. En 2011, les syndicats de l’INSEE avertissaient par exemple du risque qu’une nouvelle mĂ©thode de collecte - moins chère - faisait courir Ă l’indĂ©pendence de l’institut. Lire Insee : l’indĂ©pendance de l’indice des prix menacĂ©e.
46. Voir L’impossible calcul de la Woman Tax et le rapport au parlement: Etude sur les diffĂ©rences de prix entre certains produits et services selon le genre.
47. La majeure partie des grandes enquêtes de datajournalisme, de Afghan War Diaries aux Panama Papers, ont été réalisés par des équipes transversales, issues de plusieurs rédactions ou entreprise, dans plusieurs pays.
48. Cité dans Un Si Petit Monde. Voir en ligne Comment « Le Monde » fut vendu. Voir aussi Les médias français n’ont pas de stratégie.
49. C’est la cas par exemple des analyses rĂ©alisĂ©es sur Airbnb par Tom Slee ou de celles rĂ©alisĂ©es par Nick Diakopoulos sur la responsabilitĂ© des algorithmes.