Objectif du challenge
Dans le cadre de ce module d’analyse de donnĂ©es, vous allez vous intĂ©resser Ă une nouvelle approche du traitement des donnĂ©es, la “Data Visualisation”.
Votre objectif consistera Ă analyser, en Ă©quipe, un jeu de donnĂ©es et Ă raconter une histoire avec des graphiques Ă partir dâun jeu de donnĂ©es original comme vous le feriez pour un concours de “Data Visualisation” (ou “DataViz”).
L’objectif n’est pas de faire de grandes dĂ©monstrations “mathĂ©matiques” mais de raconter une histoire comprĂ©hensible et intĂ©ressante pour tou(te)s. Accordez donc une importance particuliĂšre Ă cette “histoire”, que vous allez raconter, et au design de vos graphiques et supports.
Descriptif du challenge
Le tourisme dans la région Occitanie en 2018
Tout au long de lâannĂ©e, des milliers de touristes dorment dans notre belle rĂ©gion.
Vous trouverez ici un jeu de données unique qui les localise et les compte par nuitée.
Vous connaissez :
- Les capacitĂ©s dâhĂ©bergement (hĂŽtel, camping,..) de chaque dĂ©partement
- La provenance des touristes, que ce soit dâun dĂ©partement Français ou de lâĂ©tranger
- Le temps quâil faisait et les principaux Ă©vĂ©nements culturels pour chaque journĂ©e
Quelques rĂšgles du jeu
- Vous pouvez utiliser tous les outils quâils souhaitent pour explorer ces donnĂ©es et en proposer une reprĂ©sentation visuelle Ă base de graphique tels que Excel, SPSS, PSPP, Tableau (https://www.tableau.com/), Observabke HQ (https://observablehq.com/) et toutes les bibliothĂšques Python ainsi que tout support de prĂ©sentation de vos rĂ©sultats tels que PowerPoint, Canva, Adobe PDF…
- Vous devez fournir la liste des outils utilisés pour la réalisation des graphiques
- Vous pouvez utiliser tout type d’outil d’analyse de donnĂ©es tels que
- Vous pouvez effectuer tous types de calcul à partir de ce jeu de données
- Le format de restitution de cette analyse visuelle sera au format pdf et ne devra pas dĂ©passer lâĂ©quivalent de 2 pages A4 ou lâĂ©quivalent de 3 captures dâĂ©cran si la rĂ©alisation est sur le web.
- Vous ajouterez tous les éléments contextuels nécessaires pour commenter le ou les graphiques.
- Vous n’ĂȘtes pas dans lâobligation dâutiliser toutes les donnĂ©es.
- Hormis des fonds de carte, vous n’ĂȘtes pas autorisĂ©(e)s Ă utiliser dâautres donnĂ©es que celles fournies.
Les données du challenge
Les sources des jeux de données
- Les volumes de nuitées ont été construites par un opérateur de téléphonie mobile à partir des bornages téléphoniques. Ces données ont été fournies par le Comité Régional du Tourisme (CRT)
- Les donnĂ©es concernant les capacitĂ©s dâhĂ©bergement ont Ă©tĂ© construites par TDV Ă partir de donnĂ©es fournies par le ComitĂ© RĂ©gional du Tourisme (CRT).
- Les données concernant les événements ont été construites par TDV à partir de données fournis par le Comité Régional du Tourisme (CRT)
- Les donnĂ©es mĂ©tĂ©o proviennent dâun site internet fournissant lâhistorique des donnĂ©es mĂ©tĂ©o pour un grand nombre de villes en France et dans le monde
- Les données de géométrie des départements sont incluses uniquement dans le fichier geojson. Ce format est adapté pour ceux qui souhaitent utiliser des outils de cartographie tels que le logiciel libre QGIS ou des librairies javascript telles que d3.js.
- Les donnĂ©es de bornage tĂ©lĂ©phonique ne sont pas des donnĂ©es brutes mais le rĂ©sultat dâun travail de traitement innovant (redressement, segmentation, anonymisation ) rĂ©alisĂ© par lâopĂ©rateur de tĂ©lĂ©phonie avec la participation dâacteurs du tourisme. Les donnĂ©es âvolume de nuitĂ©esâ sont donc des estimations statistiques.
- Les jeux de donnĂ©es sont utilisables dans ce cadre de ce module suite Ă l’obtention de l’accord de Monsieur Alain Otteinheimer, PrĂ©sident de l’association Toulouse Dataviz, dirigeant de DataSens.
Le descriptif exhaustif des donnĂ©es peut ĂȘtre trouvĂ© sur le dĂ©pĂŽt Github suivant : https://github.com/ToulouseDataViz/Hackaviz2020/blob/master/README.md
Les données comprennent plusieurs fichiers :
Des donnĂ©es synthĂ©tiques et facile dâaccĂšs : NuitĂ©es.xls et .CSV
- 365 lignes et 15 colonnes
- Nuitées par jour en synthÚse par département
Le plus détaillé mais pas le plus simple à exploiter : par_origines.xlsx et .csv
- 493 235 lignes et 8 colonnes
- par jour avec tous les détails
Croisement capacités x nuités : Sert de complément optionnel aux autres
- capacites.xlsx, .csv et .geojson
- 13 lignes et 61 colonnes
- par semaine en catégories de nuitées par département
Il est possible de faire de belles visualisations Ă partir dâun seul de ces trois fichiers de donnĂ©es, le plus simple Ă©tant nuitees qui est un aggrĂ©gat de par_origines.
Les plus experts arriveront Ă combiner les trois, mais il nâest pas certain que la plus belle histoire ait besoin de toutes ces donnĂ©es.
Lâimportant est de raconter une belle histoire avec des graphiques de qualitĂ©.
Détails des fichiers et téléchargement
Nuitées
Regroupement des donnĂ©es Ă partir du fichier par_origines. Pour chaque jour de lâannĂ©e (365 lignes / 15 colonnes)
- Date
- Nombre de nuitées dans le département 09
- Nombre de nuitées dans le département 11
- Nombre de nuitées dans le département 12
- Nombre de nuitées dans le département 30
- Nombre de nuitées dans le département 31
- Nombre de nuitées dans le département 32
- Nombre de nuitées dans le département 34
- Nombre de nuitées dans le département 46
- Nombre de nuitées dans le département 48
- Nombre de nuitées dans le département 65
- Nombre de nuitées dans le département 66
- Nombre de nuitées dans le département 81
- Nombre de nuitées dans le département 82
- Nombre de nuitées dans la région Occitanie
par_origines
Pour chaque jour de lâannĂ©e 2018 (532 399 lignes / 8 colonnes) :
- Date
- DĂ©partement ou pays dâorigine des touristes
- DĂ©partement de destination en Occitanie
- Volume de nuitées dans le département de destination
- Statut des vacances du dĂ©partement dâorigine
- Température à midi (solaire) du département de destination :
- 0 : pas en vacances,
- 1 : en vacances,
- 2 : non renseigné
- Statut qualificatif de la météo du département de destination :
- 0 : météo trÚs défavorable,
- 1 : météo défavorable,
- 2 : météo correcte,
- 3 : météo favorable,
- 4 : météo idéale
- Nombre dâĂ©vĂ©nements majeurs dans le dĂ©partement de destination
capacités
Pour chaque département (13 lignes / 61 colonnes)
- DĂ©partement
- Nom du département
- Population du département
- Nombre de places (personnes) en hébergement collectif
- Nombre de places (personnes) en hébergement locatif
- Nombre de places (personnes) en hébergement de plein air
- Nombre de places (personnes) en hébergement hÎtellier
- Nombre de places (personnes) total
- Nombre de nuitées pour la semaine 1
- Nombre de nuitées pour la semaine 53
Donnés complémentaires :
- codage des départements, codage des pays et liste des événements.
ModalitĂ©s d’examen :
Votre travail sera Ă©valuĂ© par le biais d’une des deux solutions laissĂ©e Ă votre libre choix :
- une prĂ©sentation orale par groupe d’une durĂ©e de 10 minutes maximum
- OU
- une vidĂ©o de prĂ©sentation de votre DataViz, incluant vos commentaires, d’une durĂ©e de 10 minutes maximum Ă dĂ©poser dans l’espace de dĂ©pĂŽt de cette page la vieille de la date de l’examen dernier dĂ©lai. L’espace de dĂ©pĂŽt des vidĂ©os sera ouvert ultĂ©rieurement.
Dans les deux cas, la présentation orale ou le visionnage de la vidéo, sera suivi(e) de questions pour une durée maximale de 5 minutes.
CritĂšres d’Ă©valuation :
Les travaux seront évaluées en fonction de différents critÚres dont les suivants :
Attention, il ne s’agit pas d’une “performance statistique” mais bien d’une Ă©preuve de crĂ©ativitĂ©, d’originalitĂ© et de recherche de la meilleure maniĂšre “d’Ă©clairer” les donnĂ©es.
Si vous avez tentĂ© une analyse complexe sans y aboutir, prĂ©sentez tout de mĂȘme Ă la fin de votre prĂ©sentation ce que vous vouliez faire et comment vous avez essayĂ© de vous y prendre.
Horaires passage oral
Les passages Ă l’oral seront dĂ©finis ultĂ©rieurement.
Sources d’inspiration
https://www.dataviz-inspiration.com/
https://www.awwwards.com/websites/data-visualization/
Quelques outils
https://www.tableau.com/fr-fr/academic/teaching
https://observablehq.com/pricing
Python et quelques bibliothĂšques
https://geopandas.org/en/stable/
https://python-visualization.github.io/folium/
Quelques tutos đ
Amusez-vous !
Ce challenge est publiĂ© avec l’autorisation de l’association Toulouse Dataviz (https://toulouse-dataviz.fr/)