lundi 12 mars 2012

Évolution des faits constatés par la police et la gendarmerie, 2002-2010.

J'ai passé pas mal de temps à fouiner dans les bases de data.gouv.fr ces derniers mois. Le constat que j'ai fini par faire est peut-être quelque peu lapidaire mais il est clair : il n'y a pas grand chose d'utile et exploitable dans ces bases.

Le site affiche fièrement 350 000 jeux de données à ce jour : là-dedans, il y a certes de beaux ensembles de données, des tables claires, propres, compréhensibles, riches, pleines d'intérêt. Très bien. Mais il y a aussi beaucoup de choses décevantes.

Certains éléments portent le nom de "jeu de données" et ne contiennent presque rien, parfois UN seul chiffre. C'est le cas par exemple de la "Moyenne annuelle de concentration en benzène" en Auvergne", en 2007, donnée en ug/m3. (C'est 0,00, si ça vous intéresse de le savoir.)

Certaines des données ne se trouvent pas dans des fichiers téléchargeables mais sont des informations à consulter en ligne (c'est le cas de ce même exemple).

Ce qui serait intéressant ici, c'est d'avoir un unique fichier présentant les concentrations de plusieurs polluants, sur plusieurs périodes, et en détail pour chaque département. Certes, ces données-là se trouvent aujourd'hui sur data.gouv.fr mais elles sont éparpillées dans plusieurs centaines de "jeux de données". Un gros travail de consolidation serait indispensable avant de pouvoir les exploiter !

Autre type de donnée pas forcément intéressante : nombre de sources d'information sont des documents textuels, sous Word notamment, comme les huit pages de cette "Introduction commune à l'enseignement des sciences et technologie au collège". Autre cas encore : des rapports riches et intéressants mais il s'agit de documents tout faits, au format PDF. Autrement dit, c'est le fichier source d'une plaquette quelconque.

Bref. Mon propos ici n'est pas de m'attarder sur une critique de data.gouv.fr.

Je disais tout cela pour souligner qu'un des plus "beaux" jeux de données que j'y aie trouvé est celui utilisé pour le graphe d'aujourd'hui. Il présente les "faits constatés par les services de police et les unités de gendarmerie nationales de 2002 à 2010 par département en métropole".

Il présente un détail en volume (et non pas en taux, ce qui permet donc de calculer beaucoup d'éléments à partir de là), par département (ce qui permet de travailler des cartes par exemple) , et par année.

J'aimerais beaucoup aborder des sujets plus funky que celui-ci. Ce blog n'a pas de vocation journalistique (par exemple je n'y parlerai pas de l'actualité française du printemps) et par ailleurs, à titre personnel, je n'aspire pas trop à manipuler des données sur un thème qui ait quelque chose de gris ou de sinistre. Mais l'attrait que présente la qualité de cette source de données est plus fort : je choisis donc d'y consacrer cette semaine - et peut-être davantage car ce jeu de données est vraiment riche.

source :
Faits constatés par département de 2002 à 2010
Ensemble des faits constatés par les services de police et les unités de gendarmerie nationales de 2002 à 2010 par département en métropole.
Premier Ministre
www.data.gouv.fr