Lakehouse, Warehouse, Datamart, Datawarehouse: Wat is wat en wat doet het?

Wil je aan de slag met Microsoft Fabric, dan is het handig om een begrip te hebben bij termen als Lakehouse, Warehouse, Datamart en Datawarehouse. Microsoft introduceert continu nieuwe oplossingen. Nog voordat je kunt doorgronden wat de nieuwste oplossingen inhouden, komen er alweer nieuwe bij. Fijn, maar soms ook lastig bij te houden. Wat betekenen ze nou precies en wat kun je ermee? We zetten de termen voor je op een rij en leggen je uit wat ze inhouden.

Om te begrijpen waar dit over gaat, heb je een klein beetje achtergrond nodig. Business Intelligence werkt vaak met een soort verzamelbak waar alle data uit de diverse oplossingen samengebracht wordt. Van oudsher was dat vaak een Data Warehouse. Maar onder andere door de komst van ongestructureerde data of Big Data, zijn daar nieuwe manieren bijgekomen. Het Datalake deed z’n intrede. En inmiddels is er een huis aan de rand van het Datalake gebouwd. Het Lakehouse. Verschillende dataopslag- en beheermodellen kwamen om de hoek komen kijken. Ze bieden elk hun eigen aanpak voor de complexe eisen van moderne data-analyse.

Datawarehouse (DWH)

Een datawarehouse is een gecentraliseerde opslagplaats ontworpen om gegevens uit meerdere bronnen te verzamelen, opslaan, en beheren. Het is geoptimaliseerd voor het uitvoeren van complexe queries en analyses over grote datasets.

Functionaliteit van het Data warehouse

Integratie van Gegevens

Het combineert data uit verschillende bronnen (bijv. operationele databases, externe bronnen) in één consistente opslagplaats.

Complexe queries, eenvoudiger analyseren en rapporteren

Het is geoptimaliseerd voor het uitvoeren van complexe queries, wat helpt bij het genereren van rapporten en het uitvoeren van diepgaande analyses.

Trends vanuit historische data

Datawarehouses slaan vaak historische data op, wat essentieel is voor trendanalyses en besluitvorming over lange termijn.

Toepassing bij verschillende bedrijfsgroottes

Datawarehouses worden vaak gebruikt door middelgrote en grote ondernemingen voor BI, rapportage en het ondersteunen van besluitvorming op strategisch niveau.

Praktijkvoorbeeld van een Datawarehouse

Stel dat je controller bent. Je wilt continu een compleet beeld van je liquiditeit hebben. Een Datawarehouse stelt je in staat om op ieder moment, zonder diepgaande kennis van de databases en rapportagesoftware zicht te houden op de liquiditeit over meerdere werkmaatschappijen of bedrijven in diverse landen, regio’s of bijvoorbeeld periode’s.

Het inzicht staat dus constant voor je klaar, waarbij je dagelijks zicht kunt houden op de situatie. Of dat nu de liquiditeit is die je wilt volgen of een andere KPI die voor jouw organisatie van belang is.

Datamart

Een datamart is een subset van een datawarehouse, gericht op een specifiek bedrijfsgebied of functie, zoals verkoop, marketing of financiën. Op deze manier werkt iedere afdeling met zijn eigen model en blijft de performance hiervan voor iedereen gewaarborgd.

Functionaliteit van de Datamart

Gespecialiseerde Analyse

Het biedt gerichte data-analyse en rapportagemogelijkheden voor specifieke afdelingen binnen een organisatie. Op basis van je rechten krijg je de mogelijkheid om data vanuit meerdere afdelingen te bekijken.

Kostenbesparing

Door alleen relevante data op te slaan, kunnen de kosten voor opslag en verwerking worden verlaagd. Doordat er selectief data wordt opgeslagen, is er ook minder rekenkracht nodig. Dat komt zowel de kosten als de performance ten goede.

Toepassing bij verschillende afdelingen

Datamarts worden vaak gebruikt door specifieke afdelingen binnen een organisatie die gespecialiseerde analyses en rapporten nodig hebben.

Praktijkvoorbeeld van een Datamart

De Datamart is in staat om direct data uit bronsystemen op te halen. Als je als controller inzicht in die data wilt creëren heb je veel kennis van de databases nodig. De data komt als ruwe data binnen. Je moet die dus zelf nog transformeren naar iets bruikbaars. In het Datawarehouse zijn de stappen hiervoor al genomen. 

In het voorbeeld van de controller die zicht op zijn liquiditeit wil houden, is het dus zo dat hij dat met de Datamart ook op dagelijkse basis kan doen. De dwarsdoorsnedes zijn alsnog te maken, maar de performance van een Datamart is voor grotere organisaties niet toereikend. 

Data Lake

Een Data Lake is een grootschalige opslagomgeving die gestructureerde, semi-gestructureerde en ongestructureerde data in hun oorspronkelijke formaat opslaat.

Functionaliteit van het Data Lake

Flexibel

Het kan data opslaan in verschillende formaten (bijv. JSON, XML, CSV, afbeeldingen) zonder de noodzaak van voorafgaande verwerking of structuren.

Big Data Analyse

Ideaal voor het verwerken van grote hoeveelheden data voor machine learning, data-analyse en real-time analytics.

Kostenefficiëntie

Data Lakes zijn vaak goedkoper dan een Datawarehouse, vooral wanneer ze worden gebruikt voor het opslaan van grote hoeveelheden ongestructureerde data.

Gebruik

Data Lakes worden vaak gebruikt door data scientists en analisten voor exploratieve data-analyse (EDA), machine learning en big data projecten.

Praktijkvoorbeeld van een Datalake

Los van het voorbeeld van de controller is het Datalake uitermate geschikt om grote hoeveelheden data samen te laten komen. Denk hierbij aan machinedata, webdata of bijvoorbeeld weerdata. Om die uiteindelijk te koppelen aan andere relevante gegevens, heb je een van de andere oplossingen nodig. De controller in dit voorbeeld kan dus niet direct vanuit het Datalake een rapport opbouwen van zijn liquiditeit.

Lakehouse

Een Lakehouse is een moderne data-architectuur die de voordelen van Data Lakes en Datawarehouses combineert. 

Functionaliteit van het Lakehouse

Unified Storage

Het slaat zowel gestructureerde als ongestructureerde data op, net als een Data Lake, maar met de mogelijkheid om data te organiseren en te optimaliseren voor analyse, vergelijkbaar met een Datawarehouse.

Efficiëntie

Biedt de flexibiliteit en kostenefficiëntie van een Data Lake, terwijl het ook de robuuste analytische mogelijkheden van een Datawarehouse biedt.

Real-time Analytics

Ondersteunt real-time data-analyse en Machine Learning. In combinatie met bijvoorbeeld een Datawarehouse, creëer je een toekomstgerichte oplossing die bijvoorbeeld productiebedrijven helpt data-driven beslissingen te nemen.

Gebruik

Lakehouses worden steeds populairder in organisaties die zowel de flexibiliteit van Data Lakes als de analytische kracht van Datawarehouses nodig hebben. Ze zijn ideaal voor het implementeren van Data Science.

Praktijkvoorbeeld van een Lakehouse

Als de controller de opdracht krijgt de liquiditeit op te halen uit het Lakehouse, is daar best veel kennis van queries voor nodig. Je moet de data eigenlijk zelf opzoeken in de data. Je hebt eigenlijk een Datamart nodig om je data zodanig te prepareren dat het dagelijks bruikbaar is.

Als je die stap overslaat, zou je een query kunnen ontwikkelen die je draait op het moment dat je de data nodig hebt. Het maken van dwarsdoorsnedes is hiermee niet eenvoudig. Je analyseert platte data en kijkt naar een momentopname. Door de tijd heen rapporteren is af te raden met een Lakehouse.

Alle oplossingen in relatie tot Microsoft Fabric

De klassieke BI werkwijze is gebaseerd op een proces waarin voor iedere stap in het proces een aparte oplossing bestaat. De brondata wordt opgehaald met Azure Synapse, vervolgens wordt de data met een ETL proces geladen. Met Analysis Services modelleren we de data vervolgens zodanig dat we daarna visualisatie kunnen loslaten op dit model met Power BI. Met Microsoft Fabric verandert er niet zoveel aan de stappen in het plan. Het enige dat nieuw is, is dat het allemaal onder ‘één dak’ plaatsvindt. In die zin is Fabric een vervanger voor Azure Synapse en Analysis Services.

Conclusie

Verandering is een constante in onze wereld. Hoe het landschap er over een jaar uitziet is daarom nu nog niet helemaal bekend. Maar het is duidelijk welke richting er is ingeslagen. Welke oplossing je nu zou moeten kiezen, hangt af van wat je nu nodig hebt, maar ook over een paar jaar nodig denkt te hebben. Je kunt nu al voorsorteren op futureproof oplossingen.

Elk bedrijf is uniek; met alle specifieke uitdagingen die ze moeten overwinnen, middelen die ze moeten gebruiken en doelen die ze willen bereiken. Daarom is het belangrijk om de beschikbare opties zorgvuldig te evalueren om erachter te komen welke oplossing het beste bij het bedrijf past. Het wordt aanbevolen om bij het maken van een keuze rekening te houden met je budget, behoefte aan gegevensopslagvolume en frequentie van benodigde toegang.

In dit proces kan Peacock als partner optreden om je te begeleiden. Met onze expertise helpen we je om de juiste oplossing te vinden die past bij jouw behoeften en doelstellingen. We staan klaar om je te ondersteunen bij het maken van weloverwogen beslissingen en het benutten van de volledige potentie van je data.

Meer informatie?

App mij