Découvrez comment les experts de Lucy in the Cloud ont créé une nouvelle solution qui permet de traiter en pseudo temps réel d’énormes ensembles de données, notamment des courbes de charge, et de les exposer à l’analyse et à l’utilisation du « Machine Learning », pour un grand acteur du secteur de l’énergie.

Quel était le défi qui nous a été présenté ?

Notre client s’est adressé aux experts de Lucy avec un défi clair à résoudre : il traitait de très grands ensembles de données, qui n’avaient pas de marqueurs de mise à jour propres dans les solutions ERP propriétaires. Il avait donc besoin d’une solution capable de répondre aux exigences suivantes :

  • Une plateforme de données et un Data Lake uniformes, incluant des capacités d’analyse en temps réel.
  • Des capacités réactives de BI et de tableau de bord en libre-service
  • Capacité de la plateforme à répondre à des cas d’utilisation plus orientés ML/AI.
  • Agilité de déploiement dans un environnement contrôlé.

Et nos experts n’ont pas perdu de temps pour se mettre au travail sur une stratégie et une solution technique qui résoudrait les principaux problèmes de notre client.
Alors, qu’avons-nous trouvé ?

Notre solution : une solution Data Lake utilisant Redshift

Architecture basée sur les principaux services de données d’AWS

technical architecture energy sector data lake solution amazon redshift

Solution Data Lake avec Redshift et Tableau pour la DataViz

Nos experts se sont appuyés sur les capacités cartographiques de Tableau pour visualiser tous les compteurs intelligents du réseau, y compris tous les paramètres de consommation.
Les riches capacités en matière de tableaux de bord permettent d’établir des rapports et de visualiser toutes les mesures de l’entreprise dans un ensemble uniforme, ce qui correspond exactement à ce que notre client recherchait.

Redshift fournit un modèle de données d’entreprise unifié, avec un faible temps de synchronisation à partir des systèmes sources

Le Data Warehouse fonctionne sur Amazon Redshift et suit la méthodologie Data Vault 2.0. Les objets Data Vault sont très standardisés et ont des règles de modélisation strictes, ce qui permet un haut niveau de standardisation et d’automatisation. Le modèle de données est généré à partir des métadonnées stockées dans une base de données Amazon RDS Aurora. Le modèle Data Vault est généré par Orion, un moteur d’automatisation Data Vault développé par Lucy in the Cloud qui fonctionne en mode sans serveur. Le mode sans serveur est obtenu en générant des fonctions AWS Step qui exécutent des fonctions Lambda et exécutent des requêtes Redshift qui sont envoyées par l’API de données Redshift.

Cela rend la solution très évolutive et capable de traiter en quasi temps réel.

Flux en temps réel basé sur AWS MSK et Kafka connect

Afin de synchroniser les données des bases de données reposant sur le Change Data Capture (CDC), Kafka connect est utilisé pour exécuter Debezium. Les nœuds Kafka connect sont exécutés sous Docker en mode haute disponibilité. Les données sont sérialisées au format AVRO, le registre des schémas est déployé sur ECS en mode HA. Le fait d’avoir la sérialisation au format AVRO la rend rapide et optimale pour le stockage. AWS MSK donne à la plateforme de données une base solide pour gérer n’importe quel cas de données en temps réel, aujourd’hui et à l’avenir.

Et bien plus encore !

La plateforme de données uniforme que nous avons construite pour cet acteur clé du secteur de l’énergie se développe rapidement et lui permet d’aborder toutes sortes de cas d’utilisation liés aux données, y compris l’utilisation de capacités d’apprentissage automatique et d’intelligence artificielle.

Vous voulez en savoir plus sur les capacités d’Amazon Redshift ?

Lisez tout à ce sujet ici : Amazon Redshift : le cloud data warehouse le plus rapide et le plus utilisé