vendredi 16 mars 2012

La pyramide plate.

Le vendredi c'est permis.

C'est un histogramme empilé  en 3D, avec deux séries de données : les briques visibles sont la série du dessus et contient la même valeur à tous les points. L'autre série incrémente les entiers de 0 à 11 puis redescend à 0. Et elle n'a ni aire ni bordure.

A partir de là, ce n'est qu'un jeu sur les paramètres de Vue 3D.

jeudi 15 mars 2012

Faits constatés pour 1000 habitants en 2010, par département.

C'est la réponse à la question posée hier : le nombre de faits constastés rapporté à la population de chaque département.

Deux constats.

Le premier est que la répartition géographique est assez semblable à celle d'hier : mêmes départements à montrer du doigt et même régions "calmes", avec néanmoins un léger (et intéressant) glissement des zones sombres vers l'est.

Le second est que les tranches définies aujourd'hui n'ont pas du tout le même profil que celles définies hier. Etant donné qu'on a fait le choix, pour les deux cartes, de regrouper les départements en cinq groupes équivalents en effectif, ce sont les bornes de ces tranches qui s'adaptent aux nécessitées déterminées par les valeurs.

Dans chacune de ces deux cartes, regardons l'ampleur de chaque tranche, c'est à dire l'écart entre les bornes de chaque tranche :
- dans celle d'hier, la tranche inférieure allait du simple au quadruple, les trois tranches intermédiaires allaient chacune grosso modo du simple au double, et la tranche supérieur allait du simple au quintuple !
- dans celle d'aujourd'hui, la tranche inférieure va du simple au double également, mais les trois suivantes sont très étroites ; la tranche supérieure va à peine du simple au double.

C'est une limite de la représentation cartographique avec gradation de couleurs : les amplitudes des tranches les unes par rapport aux autres peuvent être très différentes. Une tranche peut suggérer une proximité de valeur entre deux aires proches des bornes opposées de la tranche, alors qu'elles ont en réalité des valeurs très différentes. On peut éventuellement augmenter le nombre de tranches pour réduire ces amplitudes, mais on risque d'y perdre en lisibilité puisque les tranches voisines vont être plus difficiles à distinguer l'une de l'autre.

Alors, comment visualiser la présence de ces disparités ? Comment montrer que les valeurs portées sur deux départements sont très différentes alors même que la carte les place dans une même tranche ?

source :
Faits constatés par département de 2002 à 2010
Ensemble des faits constatés par les services de police et les unités de gendarmerie nationales de 2002 à 2010 par département en métropole.
Premier Ministre
www.data.gouv.fr

mercredi 14 mars 2012

Faits constatés par la police et la gendarmerie en 2010, par département.

Toujours sur le même jeu de données présenté lundi, voici un zoom sur l'année 2010 (année la plus récente disponible), avec une répartition par département.

On voit que l'Ile-de-France est "dangereuse", de même que les départements dans lesquels sont situées les plus grandes villes de métropole.

La question qu'on se pose immédiatement est : "oui, mais si on rapporte ça à la taille de la population ?"

source :
Faits constatés par département de 2002 à 2010
Ensemble des faits constatés par les services de police et les unités de gendarmerie nationales de 2002 à 2010 par département en métropole.
Premier Ministre
www.data.gouv.fr

mardi 13 mars 2012

Évolution des faits constatés par la police et la gendarmerie, 2002-2010.

C'est exactement le même graphe qu'hier, mais avec une échelle plus courte sur l'axe des ordonnées. Hier, j'avais forcé le minimum de cet axe à zéro. Ce graphe-ci est ce qu'Excel a généré automatiquement sur cette série de données.

Que s'est-il passé ? Ici les données sont plutôt regroupées : la valeur la plus basse est quasiment à 3,5 millions tandis la plus haute dépasse à peine les 4 millions, et toutes les autres valeurs sont comprises entre ces deux bornes. En statistiques, on dirait que l'écart-type est faible. Lorsque cet écart-type est inférieur à un certain seuil, Excel génère par défaut un graphique dont l'axe des ordonnées n'a pas pour minimum 'zéro' (ou pour maximum, si cela se passe dans des valeurs négatives). Au lieu de ça, il sélectionne un intervalle pertinente, qui entoure les valeurs juste ce qu'il faut pour que l'on ait une courbe parlante.

L'effet visuel est évident : on a très nettement l'impression que la baisse exprimée par cette courbe est plus prononcée que celle d'hier. Pourtant, il s'agit de la même puisque les données sont exactement identiques !

source :
Faits constatés par département de 2002 à 2010
Ensemble des faits constatés par les services de police et les unités de gendarmerie nationales de 2002 à 2010 par département en métropole.
Premier Ministre
www.data.gouv.fr

lundi 12 mars 2012

Évolution des faits constatés par la police et la gendarmerie, 2002-2010.

J'ai passé pas mal de temps à fouiner dans les bases de data.gouv.fr ces derniers mois. Le constat que j'ai fini par faire est peut-être quelque peu lapidaire mais il est clair : il n'y a pas grand chose d'utile et exploitable dans ces bases.

Le site affiche fièrement 350 000 jeux de données à ce jour : là-dedans, il y a certes de beaux ensembles de données, des tables claires, propres, compréhensibles, riches, pleines d'intérêt. Très bien. Mais il y a aussi beaucoup de choses décevantes.

Certains éléments portent le nom de "jeu de données" et ne contiennent presque rien, parfois UN seul chiffre. C'est le cas par exemple de la "Moyenne annuelle de concentration en benzène" en Auvergne", en 2007, donnée en ug/m3. (C'est 0,00, si ça vous intéresse de le savoir.)

Certaines des données ne se trouvent pas dans des fichiers téléchargeables mais sont des informations à consulter en ligne (c'est le cas de ce même exemple).

Ce qui serait intéressant ici, c'est d'avoir un unique fichier présentant les concentrations de plusieurs polluants, sur plusieurs périodes, et en détail pour chaque département. Certes, ces données-là se trouvent aujourd'hui sur data.gouv.fr mais elles sont éparpillées dans plusieurs centaines de "jeux de données". Un gros travail de consolidation serait indispensable avant de pouvoir les exploiter !

Autre type de donnée pas forcément intéressante : nombre de sources d'information sont des documents textuels, sous Word notamment, comme les huit pages de cette "Introduction commune à l'enseignement des sciences et technologie au collège". Autre cas encore : des rapports riches et intéressants mais il s'agit de documents tout faits, au format PDF. Autrement dit, c'est le fichier source d'une plaquette quelconque.

Bref. Mon propos ici n'est pas de m'attarder sur une critique de data.gouv.fr.

Je disais tout cela pour souligner qu'un des plus "beaux" jeux de données que j'y aie trouvé est celui utilisé pour le graphe d'aujourd'hui. Il présente les "faits constatés par les services de police et les unités de gendarmerie nationales de 2002 à 2010 par département en métropole".

Il présente un détail en volume (et non pas en taux, ce qui permet donc de calculer beaucoup d'éléments à partir de là), par département (ce qui permet de travailler des cartes par exemple) , et par année.

J'aimerais beaucoup aborder des sujets plus funky que celui-ci. Ce blog n'a pas de vocation journalistique (par exemple je n'y parlerai pas de l'actualité française du printemps) et par ailleurs, à titre personnel, je n'aspire pas trop à manipuler des données sur un thème qui ait quelque chose de gris ou de sinistre. Mais l'attrait que présente la qualité de cette source de données est plus fort : je choisis donc d'y consacrer cette semaine - et peut-être davantage car ce jeu de données est vraiment riche.

source :
Faits constatés par département de 2002 à 2010
Ensemble des faits constatés par les services de police et les unités de gendarmerie nationales de 2002 à 2010 par département en métropole.
Premier Ministre
www.data.gouv.fr