Pour commencer, il faut installer la bibliothèque PySankey sur notre notebook Google Colab :

Ensuite nous allons importer nos données dans le disque dur virtuel de notre notebook Google Colab :

Nous choisissons le fichier PAR_ORIGINES.XLSX :

Une fois installé sur notre disque dur virtuel, nous allons copier le chemin d’accès à notre fichier sur le disque dur virtuel car nous l’utiliserons ultérieurement pour y accéder lors de la création de notre jeu de données :

Avant de créer notre variable (objet) contenant nos données, nous importons la bibliothèque PANDAS en lui donnant l’alias PD. Nous appellerons DATA notre variable (objet) contenant nos données. Nous précisons ici l’emplacement de nos données en copiant le chemin d’accès à nos données :

Le contenu des données peut être affiché en appelant l’objet DATA

Le Sankey

Pour dessiner notre sankey, nous allons utiliser la bibliothèque PySankey. Vous pouvez accéder aux détails de cette bibliothèque PySankey en utilisant le lien suivant : https://github.com/anazalea/pySankey. Vous trouverez aussi des exemples d’utilisation en cherchant sur Google : https://www.python-graph-gallery.com/basic-sankey-diagram-with-pysankey

Après avoir importé la bibliothèque PySankey et avoir choisi l’importation de sankey, nous créons notre graphique en précisant l’origine des données se situant à gauche, à droite, les poids des données ainsi que des détails de style d’affichage.

Installer PySankey :

!pip install PySankey

Afficher le Sankey :

from pySankey.sankey import sankey

import pandas as pd

# Load the data from the Excel file
data = pd.read_excel('/content/par_origines.xlsx')
sankey(left=data['org'],right=data['dest'],leftWeight=data['volume'],rightWeight=data['volume'],aspect=20,fontsize=14)

Vous remarquerez que ce graphique est difficilement lisible. Il faudrait ici sélectionner des données plus spécifiques pour que le graphique devienne lisible.

Les données étant issues d’un DataFrame Pandas, lisez la documentation pandas pour la sélection des données : https://pandas.pydata.org/

Voir ici comment sélectionner les lignes d’un DataFrame Pandas : http://www.python-simple.com/python-pandas/dataframes-indexation.php

Exemple de code :

https://github.com/probablyvivek/30-Days-30-Charts-Challenge/blob/main/sankey.ipynb