Data Lake et Data Warehouse d’AWS : quelles différences et quels bénéfices ?


Publié le 04-06-2020 par Team Freelance-info



Les architectures Big Data ont le vent en poupe : les entreprises adoptent généralement les lacs et entrepôts de données pour gérer leurs différentes charges de travail. Quelles différences entre Data Lake et Data Warehouse ? Quelle complémentarité et quels bénéfices ? Quid d’AWS ? Freelance Info fait le point.

Data Lake : le lac de données

Un Data Lake (ou lac de données) désigne, selon le Mag IT , “un référentiel de stockage qui conserve une grande quantité de données brutes dans leur format natif jusqu'à ce qu'elles soient nécessaires.”
Si un entrepôt de données hiérarchisé consigne les données dans des fichiers ou des dossiers, le lac de données présente pour sa part une architecture à plat.
Ici, chaque donnée est dotée d’un identifiant unique et marquée par un jeu de balises de métadonnées étendues.
Ainsi, pour répondre à une question métier, il s’agira d’interroger le Data Lake à la recherche d’informations pertinentes, et dès lors, d’analyser un ensemble de données spécifiques pour apporter une réponse qualifiée.
Le terme désigne ainsi tout réservoir important de données n’exigeant pas de définition de schéma et de données avant d’interroger ces dernières.

Data Warehouse : l’entrepôt de données

Les Data Warehouse, pour leur part, réfèrent aux bases de données permettant le stockage de données historiques structurées, non volatiles (aucune mise à jour n’est effectuée sur ces données) et orientées sujet en vue de leur analyse.
Les données et les informations, classées par sujet, proposent une vue d’ensemble des différentes transactions qui se sont produites, selon différents points de vue pour les utilisateurs, dans une logique d’agrégation leur permettant d’y accéder plus facilement.
Une Data Warehouse est donc définie par le type de données contenues et la nature de ses utilisateurs.
Cette base de données relationnelle concerne les activités suivantes : requête et analyse de données, prise de décision ou encore Business Intelligence.
Son environnement intègre également un outil d’extraction, de transport, de transformation et de chargement des données (ETL), ainsi qu’un moteur de traitement analytique en ligne (OLAP), des outils d’analyse client et des applications pour la gestion du traitement des données collectées.

Retrouvez toutes les missions orientées "Data" ici

Quelles différences ?

Les Data Warehouses ne datent pas d’hier puisqu’ils sont utilisés depuis plus de trente ans : les Data Lakes gagnent cependant en popularité au point d’être en passe de les remplacer.
Ils ne servent cependant pas la même utilisation : le Data Warehouse, qui n’accueille que des données structurées, sert à prendre des décisions quand le Data Lake vise à contenir une masse de données brutes dans leur format d’origine jusqu’à ce qu’on en ait besoin.
Leurs principales différences concernent ainsi les données, leur traitement, le stockage, l’agilité, la sécurité et les utilisateurs.
Le stockage sur Data Lake, qui n’a pas de structure, est plus accessible financièrement que les Data Warehouses, moins agiles : la plupart des technologies Big Data reposent en effet sur des logiciels Open Source.
Dans ce modèle, les Data Developers et les Data Scientists peuvent configurer simplement les modèles de données, les requêtes et les applications.
La génération de valeur a donc des raisons et des cibles différentes, selon les besoins analytiques des entreprises.
Les deux architectures migrent vers le cloud pour s’adapter aux exigences de ce nouveau paradigme.

Quid d’AWS ?

Les deux technologies peuvent être utilisées en tandem pour de meilleurs résultats : les Data Lakes servent à la découverte de logiques, et les Data Warehouses à leur application.
Amazon rassemble les deux technologies par le biais d’outils comme Amazon Redshift Spectrum, choix par défaut pour stocker des données relationnelles dans le cloud chez AWS (Amazon Web Services) , ou comme Athena, pour améliorer la performance des requêtes et réduire les coûts.
A la clé, les entreprises disposent d’une architecture dynamique pour lancer des requêtes sur des objets.
L’objectif : augmenter la vitesse de développement des outils analytiques et Big Data.
Il est donc possible de choisir le service de stockage et le mode de consommation les mieux adaptés aux besoins des dirigeants, ou de les utiliser en complémentarité pour plus d’efficacité et une meilleure maîtrise des coûts.

Et vous, qu’en pensez-vous ? Etes-vous plutôt Data Lake ou Data Warehouse, ou les deux ?

Sur le sujet, consultez également notre article, “Infrastructure as Code (IaC) : fonctionnement, pratiques, avantages…”

Suivez au quotidien l’actualité informatique sur notre blog, et trouvez votre prochaine mission sur Freelance Info


Team Freelance-info