Qu'est ce qu'un data warehouse ?

Nous vous expliquons ce qu’est un data warehouse, les éléments essentiels à connaître sur le sujet et les différences avec les autres formes de stockages de données. Dans un souci de simplicité, nous n’évoquons ici que très brièvement les aspects techniques.

Avec l’essor de la science des données, un nouveau jargon a fleuri en entreprise ces dernières années. Si auparavant on parlait archivage papier et fichiers Excel, il faut dorénavant compter avec le stockage des données. Des termes tels que data warehouse, data lake, datamart ou encore database vous chatouillent les oreilles à longueur de journée et vous peinez parfois à suivre le rythme de ses spécialistes de la donnée ? Pas de panique, vous vous trouvez au bon endroit !

Qu’est-ce qu’un data warehouse ?

Un data warehouse — ou entrepôt de données en français — est un système centralisé de stockage de données provenant de différentes sources (la plupart du temps un ensemble de databases). Ces données sont généralement organisées et structurées de manière à permettre leur traitement et leur analyse. Néanmoins, il existe également des data warehouses contenant des données non structurées.

Les données sont importées dans le data warehouse à intervalles réguliers selon un procédé ETL (Extract Transform Load). Les utilisateurs peuvent ensuite y accéder et les exploiter. La nécessité de créer un point d’accès à l’ensemble des données pertinentes afin de les utiliser, les manipuler et faciliter la prise de décisions a encouragé l’apparition des data warehouses.

L’entrepôt de données peut exister sur place ce qui implique la mobilisation d’un certain nombre de ressources et souvent un logiciel spécifique (propre ou proposé par une partie tierce) ou dans le cloud. Plusieurs entreprises proposent des services d’entreposage de données. C’est le cas notamment d’Amazon (Amazon Red Shift,), Microsoft ou encore Snowflake.

À quoi sert un data warehouse ?

Un data warehouse constitue un élément essentiel dans l’architecture des données qui permet de centraliser des données hétérogènes provenant de sources diverses. On le sait, les entreprises sont confrontées à un flot de données toujours plus important et ces données n’ont aucune valeur si elles ne sont pas exploitées ou si elles n’aident pas à la décision.

La création d’un système d’architecture de données structuré et scalable s’avère donc cruciale pour beaucoup d’entreprises. Le data warehouse se présente comme un composant clé de ce système.

Le data warehouse s’articule généralement autour de trois niveaux distincts :

Extraction et collection des données soit le processus ETL. L’extraction peut être réalisée de manière automatisée, par le biais d’algorithmes, ou par intervention manuelle dans certains cas (à éviter au maximum) ;
Archivage et organisation des données soit l’organisation au sein du data warehouse de façon à pouvoir accéder rapidement aux données pertinentes. Cela inclut la création éventuelle de datamarts (nous y reviendrons par la suite) ;
Fourniture de l’accès aux données soit l’interface avec les utilisateurs. En général, l’accès n’est donné qu’en lecture seule.

Différence entre data warehouse et data lake

Ces derniers temps, le terme de data lake — soit lac de données — semble fort à la mode. Le data lake s’apparente à un grand réservoir de données brutes. Les données y sont simplement stockées sans manipulation préalable de façon à pouvoir être utilisées par la suite.

Pour vous donner une comparaison plus intuitive, le data lake peut être comparé à des montagnes enneigées. Il s’agit potentiellement d’un domaine skiable de premier plan mais, sans remontées mécaniques et sans pistes, peu de skieurs sauront en profiter. Grâce au data warehouse, des pistes sont tracées et des télésièges sont construits de manière à mieux organiser les données et permettre leur exploitation.

Différence entre data warehouse et datamart

Le data warehouse existe en principe au niveau de l’entreprise dans son ensemble. Il s’agit d’un entrepôt de données centralisé. Afin de permettre un traitement plus rapide des données, les organisations choisissent souvent de créer des datamarts qui sont destinés à un département en particulier ou un public spécifique. Ces datamarts ne contiennent donc que les données pertinentes pour ces cibles ce qui résulte généralement dans une diminution du temps de traitement. Les datamarts se présentent comme des éléments distincts du data warehouse ou, dans certains cas, comme de simples subdivisions.

Pour reprendre l’analogie du domaine skiable, les datamarts répartissent les pistes par catégories : rouge, noire, bleue, verte, etc. Les skieurs peuvent donc choisir les pistes qui conviennent à leur niveau dans ce cas-ci (et à leurs compétences dans le cas des datamarts).

Les datamarts permettent également de cloisonner les accès aux données. Fournir un accès illimité à l’ensemble des données collectées par l‘entreprise à tout à chacun semble en effet peu judicieux.

Différence entre data warehouse et database

Les databases ou bases de données furent en quelque sorte la première forme d’organisation de données. Les données sont structurées au sein de databases relativement rigides qui ne conservent généralement que les valeurs les plus récentes.

Le data warehouse est destiné à emmagasiner une quantité nettement plus importante de données qu’une base de données traditionnelle. Les objectifs des deux systèmes de stockage diffèrent donc. La base de données a pour vocation d’enregistrer les données alors que, dans le cadre du data warehouse, l’objectif est d’analyser et d’exploiter les données à des fins décisionnelles.

Si nous en revenons à nos montagnes enneigées, les databases recueillent passivement les informations d’enneigement, d’ensoleillement et autres alors que les entrepôts de données permettent de réaliser des prévisions météo ou de déterminer quelles pistes doivent être dégagées.

Stocker les données, et après ?

Que l’on parle d’entrepôt de données, de lac de données, de base de données ou de datamart, ces éléments ne sont que des outils permettant une exploitation optimale. Conserver des données sans les exploiter revient à créer un potager pour laisser pourrir les fruits et légumes… Organiser de belles rangées et un système d’irrigation sophistiqué, éloigner les insectes ou encore protéger la récolte des intempéries perd tout son sens si vos carottes finissent dans le compost, voire pire, à la poubelle !

Chez Ryax, nous avez créé un SaaS permettant de déployer, exécuter et mettre à l’échelle les modèles de traitement de données. Vous souhaitez en savoir plus sur notre produit et la manière dont Ryax peut aider votre entreprise ? Contactez-nous pour planifier un rendez-vous ou discuter de vos attentes.

Vous faites des analyses de données ?
Découvrez sans plus tarder nos analyses prêtes à l'emploi sur notre marketplace.

Découvrez notre marketplacce

La Ryax Team.