Opendata + Wikipédia + Github = datajournalisme local

by JeanAbbiateci on février 23, 2013

Il y a quelques semaines, j’avais publié une petite série sur le datajournalisme et la presse locale. En essayant de montrer de quelle manière il me semblait que la PQR pouvait et avait tout intérêt à s’emparer du sujet. Sans dogmatisme, mais avec pragmatisme…

Si vous avez raté, ça se passe ici (en trois tomes)

Bref, suite à cette petite série, plutôt que d’en rester aux beaux discours, je me suis lancé un petit défi. Mettre les mains dans le cambouis et essayer, en l’espace d’une journée de travail (9h – 18h) de mettre sur pied une petite application de datajournalisme adaptée à la presse locale, depuis l’idée initiale jusqu’à la mise en ligne, en passant par la collecte et le formatage de données. Bref, un petit hackathon pour moi  tout seul !

Voici, pour ceux que ça intéresse, le mode d’emploi de cette petite appli…

1er étape : l’idée

J’ai choisi de bosser avec le fichier Opendata répertoriant la liste des monuments historiques de Bretagne et d’Ille-et-Vilaine. Pour le département 35, on compte 531 monument classés… Sur la forme, j’ai choisi d’emblée l’option la plus simple, la plus évidente… Une cartographie afin que le lecteur puisse découvrir très facilement le patrimoine près de chez lui en un clic…

2ème étape : le nettoyage et le formatage des données

Le fichier récupéré sur Data Publica, relativement bien structuré, comporte néanmoins une lacune importante : les monuments historiques  ne sont localisés de manière précise. Au mieux, on a l’adresse postale, au pire rien du tout.

C’est là qu’intervient la magie Wikipedia. Les contributeurs ont eux la très bonne idée  de localiser très précisément quasi l’intégralité des emplacements sur cette page. Un petit coup de pouce bienvenu, en dépit de quelques minimes erreurs de localisation.

Un petit coup de « scraping » (aspiration de données) avec Outwit (le génial petit plugin de Firefox) et le tour est joué. Même chose pour les images. Les Wikipédiens ont également photographié près de 80% de monuments concernés (utilisables sous licence Créative Commons). Je peux donc les utiliser dans mon application, sous réserve de les sourcer.

3ème étape : la mise en scène

Nettoyé, enrichi, mon fichier est enfin utilisable. Dernière étape, la création de l’interface. En me baladant sur Github (hébergement de code open source), je suis tombé sur ce projet signé Derek Eder.

Le code est clair et bien documenté, après quelques essais et tâtonnements, je réussis intégrer mes propres données. Quelques petits ajustements graphiques dans le HTML et le CSS et le projet est sur les rails…

Voici donc le résultat final, publié sur le site de mes confrères du Mensuel de Rennes… 

2 commentaire

Vraiment géniale cette carte !

Il manquerait juste un lien vers l’article Wikipédia quand il existe. Mérimée est parfois vide, pas à jour ou même imprécis, alors que plusieurs monuments du département ont un article très détaillé sur Wikipédia, reprenant les bases nationales, d’ailleurs…

Encore un petit scraping ? ;-)

by Benoît on 25 février 2013 at 10 h 38 min. Répondre #

Excellente idée et bel exemple d’utilisation de l’Open Data et du scraping pour des fin de datajournalisme.

Etant expert en Web et Data Scraping, et particulièrement intéressé par l’Open Data, si vous avez des problématiques quelconques dans ces domaines n’hésitez pas à venir en discuter :)

by Xavier on 22 mai 2013 at 14 h 11 min. Répondre #

Laissez votre commentaire

Required.

Required. Not published.

If you have one.